Top Banner
1 The Next-Generation Knowledge Management for Multilingual Agricultural Information Asanee Kawtrakul, Mukda Suktarachan, Aurawan Imsombut, Chaveewan Petchsiri, Chalermpon Sirigayon, Thana Sukvaree, Trakul Permpool, Prachaya Boonkhuan, Worapoj Peerawit, Intiraporn Mulasastra The Specialty Research Unit of Natural Language Processing and Intelligent Information System Technology Department of Computer Engineering, Kasetsart University, Bangkok, Thailand [email protected] Fifth Agricultural Ontology Service (AOS) Workshop 29 April 2004, Beijing, China
70

The next generation knowledge management for multilingual agricultural information

Jul 29, 2015

Download

Education

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: The next generation knowledge management for multilingual agricultural information

1

The Next-Generation Knowledge Management for

Multilingual Agricultural Information

Asanee Kawtrakul, Mukda Suktarachan, Aurawan Imsombut, Chaveewan Petchsiri,

Chalermpon Sirigayon, Thana Sukvaree, Trakul Permpool, Prachaya Boonkhuan,

Worapoj Peerawit, Intiraporn Mulasastra

The Specialty Research Unit of Natural Language Processing and Intelligent Information System Technology

Department of Computer Engineering, Kasetsart University, Bangkok,

[email protected]

Fifth Agricultural Ontology Service (AOS) Workshop29 April 2004, Beijing, China

Page 2: The next generation knowledge management for multilingual agricultural information

2

Acknowledgement

• NECTEC – I-Know (Information Extraction and Knowledge

Discovery) Project

• AFITA 2002 (First, work for Fun , then get the Fund)

Page 3: The next generation knowledge management for multilingual agricultural information

3

Agenda

• Motivation

• System Architecture: Knowledge Management

• Automatic Ontology Construction and

Maintenance

• Ontology-based Knowledge Management

– Information Extraction

– Sumarization

– Knowledge Discovery

– Knowledge Tracking

Page 4: The next generation knowledge management for multilingual agricultural information

4

Motivation

– Information Overload, especially, unstructured electronic articles and

reports – Language barriers

– Thailand is the Agriculture-based Country

Knowledge Management for Multilingual Agricultural Information Management

Page 5: The next generation knowledge management for multilingual agricultural information

5

What is KM?

• Knowledge Acquisition • Knowledge Processing :

– Knowledge Discovery

– Best Practice

• Knowledge Service– Knowledge Tracking

Page 6: The next generation knowledge management for multilingual agricultural information

6

Agricultural Information Knowledge Management

Related Projects

1. Multilingual Dictionary

2. Ontology Construction and Maintenance System

3. Knowledge Portal

• Information Extraction

• Summarization

• Knowledge Discovery

4. Knowledge Tracking

5. Machine translation

Page 7: The next generation knowledge management for multilingual agricultural information

7

IntelligentSearch Engine

Knowledge Portal Processing

WWW

Unstructured,Semi-structured,

StructuredDocument

Meta DataAnnotation tools

KnowledgeStructure

Thai AGRISCorpus

Agricultural Information Bases

Real-World Ontology

Ontology Task Oriented

Ontology

MultilingualDictionary

MT KT

System Architecture

Rice

Diseases&How to protect?

How to plant in

the winter?

Follow up the price

etc.

Yield

Page 8: The next generation knowledge management for multilingual agricultural information

8

Ontology Construction Ontology Construction and and

Maintenance SystemMaintenance System

Page 9: The next generation knowledge management for multilingual agricultural information

9

Introduction to Ontology

Two essential aspects of Ontologies

- Real-world Ontology

- For IR, IE and Semantic Web

- Task-Oriented Ontology

- For IE, Knowledge Tracking

Page 10: The next generation knowledge management for multilingual agricultural information

10

Introduction to OntologyReal World Plants Taxonomy Ontology

family genu

s

taxonomy

species plants

Part-of relation

plant reproductive organs

plant vegetative organs

fruit seeds

flower

Acalypha

concepts

instances

. . .

IS-A relation

Page 11: The next generation knowledge management for multilingual agricultural information

11

Introduction to OntologyTask Oriented ontology

disease control

cause from pathogen

cause from environment

Plant Diseases

symptom

causeTreatment

Scorch

Blight

. . .IS-A relation

concepts

instances

specific relations(e.g. Cause, hasSymptom)

. . .

Page 12: The next generation knowledge management for multilingual agricultural information

12

Why needs Automatic Ontology construction and maintenance

system?

• Enhance performance of Information processing system such as IR, IE, Knowledge Tracking, etc.

• Creating ontology by the expert is an expensive task and it is endless task for ontology maintenance, especially new instance.

Page 13: The next generation knowledge management for multilingual agricultural information

13

Automatic Ontology Construction

System Architecture

Heuristic Rules

Structured CorpusUnstructured Corpus

Raw Text Dictionary AGROVOC Thesaurus

Morphological Analysis

Term Extraction

Structure Analysis

Database Conversion

Thesaurus Recycling

Organizing System

VerificationSystem

Semantic Relation

Identification

Page 14: The next generation knowledge management for multilingual agricultural information

14

Automatic Ontology Construction

• Sources– Thesaurus– Dictionary of Agriculture – Technical paper, Published document, Encyclopedia

• Differentiation of 3 sources.Thesaurus Dictionary Text

Structuring Yes Yes No

Terms Relation Organization

Yes Yes No

Expert Validation Yes Yes No

Up-to-date Data No No Yes

Amount of Data Small Small Large

Page 15: The next generation knowledge management for multilingual agricultural information

15

Ontology from AGROVOC Thesaurus

• Technique:– Convert BT/NT to IS-A Relation

• Problem:– Not all BT/NT could define to IS-A Relation

Their semantic could defined as Ingredient of and other. For example.

MILK NT: Milk Fat (Ingredient of)

• Solutions:– NLP Technique: NP Analysis

Page 16: The next generation knowledge management for multilingual agricultural information

16

Ontology from Dictionary• Applied Plants Name Dictionary for adding Formal

Name, Local Name which familiar to users in retrieving and machine translating.

Acalypha EUPHORBIACEAEbrachystachya Hornem. H ตำ��แยดอยใบบ�ง Tamyae doi bai bang

( General ).chinensis Roxb. = A. indica L.delpyana Gagnep. US ข�งปอยตำ วเมี�ย Khang poi tua mia (Central).evrardii Gagnep. = A.siamensis Oliv. ex Gagehispida Burm. f. ExS เกี้��ยวเกี้ล้�า Kiao klao,ไหมพรม Mai phrom (Northern);ห�งกระรอกแดง Hang krarok daeng (Bangkok); หางแมว Hang maeo(Central) ห�ปล้าช่�อน Hu pla chon (Ratchaburi); chenille plant, Red hotcat's tail.

Family/SubfamilyGenus

Specific epithetAuthor Name Formal Name

Local NameHabit

Page 17: The next generation knowledge management for multilingual agricultural information

17

Ontology from Plant Names Dictionary

• Technique:– Applied task oriented parser to extract relation terms.

– Converted terms by alphabet characteristic and position of terms to relational database

• Limitation:– Dictionary has only plant names

Page 18: The next generation knowledge management for multilingual agricultural information

18

Ontology from Text

• Problems: – Concept Identification

• Variety Concept

• Concept Boundary identification

• Many Candidate Terms

– Clue Word Ambiguity– Implicit Expression

Page 19: The next generation knowledge management for multilingual agricultural information

19

Problem• Concept Identification

– Variety Concept• ง� เป�น พื�ชไร�น���มี น• Saseme is field-oil crops.

Concept => Field Crop, Oil Crop, Field-Oil Crop

– Concept Boundary identification• ผงไหมี ใช�ทำ��เป�น ฟิ"ล์$มีเคล์�อบร กษ�คว�มีสดในอ(ตำส�หกรรมีประมีง• Silk powder used as film for maintain freshness in seafood industry.

Concept => film, film for maintain freshness, film for maintain freshness in seafood industry

– Many Candidate Terms • สมี(นไพืรหล้ายช่น�ดม�สรรพคุ�ณเป�นย�ร กษ�โรค แล้ะม�กี้ารน�ามาผล้�ตในระด#บอ(ตำส�หกรรมี แล้�ว เช�น กระเทำ�ยมี ใบแปะก*วย

• Many herbs can be used as medicine and some of them are manufactured in the industry level, such as garlic, ginkgo biloba.Candidate Terms => herbs, medicine, industry

Page 20: The next generation knowledge management for multilingual agricultural information

20

• Clue Word Ambiguity• ทานตะว#นเป�นพ&ช่น��าม#น • Sun-flower is oil crop.

=> HYPONYM (Sun-flower, Oil Crop)

• ดอกี้ต#วผ��ม�ล้#กี้ษณะช่�อเป�นพ� �มส�เขี�ยวอ�อน• Staminate is a green bush.

=> PROPERTIES (Flower, Color)

• Implicit Expression (No Clue-word)• Phrase level

“Jasmine Rice” => HYPONYM (Jasmine Rice, Rice)

Problem

Page 21: The next generation knowledge management for multilingual agricultural information

21

Solutions

Problem TechniqueConcept Identification NP Analysis by using grammatical rules and

statistical bases.

Clue Word Ambiguity heuristic rules such as using the word list of object properties to eliminate non-concept term.

Implicit Expression Name Entity Extraction

Page 22: The next generation knowledge management for multilingual agricultural information

22

Forest Ontology Organizing

• Use AGROVOC Ontology to be core tree

• Merge forest ontology from dictionary and text to

core ontology by NLP Technique such as Phrase

Analysis, Term Matching

Page 23: The next generation knowledge management for multilingual agricultural information

23

Plant Products

Fruit

Watermelons (a)

Crops

Oil Crops

Oil Palms

Crops

Sesame

(c)

(d)

Fruit

Tamarind

Plant Products

Fruit

Watermelons Tamarind+

Crops

Oil Crops

Oil Palms

Sesame+

Crops

Oil Crops

Oil Palms

Crops

Oil Palms

Crops

Oil Crops

Oil Palms+

Cereals

Maize Maize

Dent Maize(b)

+

Field Crops

Maize

Cereals

Maize

Field Crops

Maize

Dent Maize Dent Maize

Forest Ontology Organizing

Page 24: The next generation knowledge management for multilingual agricultural information

24

Verification Tools• For the expert to verify output and add additional related

word pairs

disease controldisease control

BlightBlightFungal diseasesFungal diseases

plant diseasesplant diseases

WiltsWilts

SmutsSmutsAnthracnosisAnthracnosis

MildewsMildewsRustsRusts

Bakanae

BakanaeBakanae

โรคุถอดฝั,กี้ดาบโรคุถอดฝั,กี้ดาบ

IS-AIS-AIS-AIS-A

IS-AIS-A IS-AIS-A

IS-AIS-AIS-AIS-AIS-AIS-A

Existing Concept :Existing Concept :Bacterial leaf blightBacterial leaf blightBacterial leaf spotBacterial leaf spotBlack spotBlack spotBrown spotBrown spotCrack stemCrack stemFusarium yellowFusarium yellowGummosis Gummosis Mosaic Mosaic Peanut mottle Peanut mottle

Preview TreeAdd

term and relation adding

Predicate :Predicate :

Page 25: The next generation knowledge management for multilingual agricultural information

25

Ontology-based Knowledge Management

– Information Extraction

– Summarization

– Knowledge Discovery

– Knowledge Tracking

Page 26: The next generation knowledge management for multilingual agricultural information

26

Knowledge Processing Architecture

Template Construction

Template

Text Extraction

Knowledge Summary

Summarization

Knowledge Structure

Document

AnnotatedCorpus

Knowledge Discovery

Ontology

Ontology

Page 27: The next generation knowledge management for multilingual agricultural information

27

Information Extraction

Page 28: The next generation knowledge management for multilingual agricultural information

28

Describe in numbering

Has topic sentence

Describe in paragraph

Has plant name in title

Corpus Styleผ#กี้กี้าดหอม

ผ#กี้กี้าดหอมเป�นผ#กี้ท�-ใช่�บร�โภคุส�วนใบ เป�นผ#กี้จำ�าพวกี้ผ#กี้สล้#ดท�-ม�คุ�ณคุ�าทางอาหารส�ง น�ยมบร�โภคุกี้#น แพร�หล้ายท�-ส�ดในบรรดาผ#กี้สล้#ดด�วยกี้#น โดยส�วนใหญ่�น�ยมร#บประทานสดแบะน�ามาประกี้อบอาหารหล้าย

ช่น�ด คุนไทยน�ยมใช่�...

โรคุเน�าเล้ะ สาเหต�เกี้�ดจำากี้เช่&�อแบคุท�เร�ย Erwinia sp. เป�นโรคุท�-เกี้�ดขี1�นอย�างกี้ว�างขีวาง ท�าให�ผล้ผล้�ต ผ#กี้กี้าดหอมเส�ยหายอย�างมากี้ เป�นได�ท#�งในแปล้งปล้�กี้แล้ะโรงเกี้2บ นอกี้จำากี้น#�นย#งสามารถเกี้�ดโรคุได�ใน

ขีณะวางตล้าดแล้ะเม&-อผ��บร�โภคุซื้&�อไปแล้�วกี้2อาจำเกี้�ดโรคุน��ได�เช่�นกี้#น ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-ง

แวดล้�อมเหมาะสมแผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บ ต#วล้งแล้ะเน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรง

มากี้ กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไปท#�งต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้ อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน

กี้ารป8องกี้#นกี้�าจำ#ด คุวรปฏิ�บ#ต�ด#งน��

1. ในกี้ารเกี้2บเกี้�-ยวคุวรใช่�ม�ดคุมๆ ต#ดให�ขีาดเพ�ยงคุร#�งเด�ยว เพ&-อไม�ให�เกี้�ดรอยแผล้ซื้��า เพ&-อป8องกี้#นกี้ารเกี้�ดแผล้ซื้1-งจำะเป�นทางเขี�าท�าล้ายขีองเช่&�อ2. หล้#งจำากี้ารเกี้2บเกี้�-ยวคุวรผ1-งผ#กี้ไว�ในท�-โปร�ง อากี้าศถ�ายเทได�ด� เพ&-อให�แผล้ตรงรอยต#ดแห�ง แล้ะทาป�นแดงท�-แผล้ด�วย...

Semi-Structure/one plant per document

Page 29: The next generation knowledge management for multilingual agricultural information

29

Types of information• Entity information (has reference to entity in knowledge

structure) *may has a reference problem because surface form of the term

– Plant– Disease– Cause

• Explanation information– Symptom– Treatment

Entity information extracted by Name-entity recognitionExplanation information extracted by paragraph classification

and summarization

Page 30: The next generation knowledge management for multilingual agricultural information

30

Information representation• Frame of Knowledge

– Reference to source of information

– One frame per document

– One document can has many frames

– Each frame represent one disease of the plant includes cause, symptom and treatment

<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้กี้ะหล้�-าปล้�...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�สาเหต� เกี้�ดจำากี้เช่&�อราแบคุท�เร�ยล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้งกี้ารป8องกี้#นกี้�าจำ#ด1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส...</DOC>

Plant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000123”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000456”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000789”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง

Plant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000124”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000457”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000790”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�งPlant-Disease: <DOC_ID=“404200001”>plant : กี้ะหล้�-าปล้�<PLANT_ID=“000125”>disease : โรคุเน�าเล้ะ<DISEASE_ID=“000458”>cause : เช่&�อรท�เร�ย<PATHOGEN_ID=“000791”>symptom : โรคุน��ด�เกี้&อบท�กี้ระยะต�บโตแต�พบมากี้ในระยะท�-treatment : ระม#ดอย�าให�เกี้�ดแผล้ท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง

Page 31: The next generation knowledge management for multilingual agricultural information

31

Plant

Disease

Cause Symptom Treatment

Template <Template Name>{

TE: <Element-Name>([Constraint],…);…

}

Constraint:=NE-class | clue

KnowledgeStructure

Template Plant-Disease{

TE: plant (NE-class=“Plant”);TE: disease (NE-class=“Disease”);TE: cause (NE-class=“Pathogen”);TE: symptom (clue=“ ”อากี้าร , “ผ�ด”ปกี้ต� );

TE: treatment (clue=“ป8องกี้#น”, “กี้�าจำ#ด”);}

<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้<plant plant_id=“000123”>กี้ะหล้�-าปล้�</plant>...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. <disease disease_id=“000456” plant_id=“000123” grp_id=“1”>โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�</disease>สาเหต� เกี้�ดจำากี้<cause pathogen_id=“000789” plant_id=“000123” grp_id=“1”>เช่&�อราแบคุท�เร�ย</cause><symptom plant_id=“000123” grp_id=“1”>ล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้ง</symptom>กี้ารป8องกี้#นกี้�าจำ#ด<treatment plant_id=“000123” grp_id=“1”>1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส</treatment>...</DOC>

<DOC id=“AGRIS0404200001”>กี้ารปล้�กี้กี้ะหล้�-าปล้�...โรคุแล้ะแมล้งศ#ตร�ท�-ส�าคุ#ญ่โรคุท�-ส�าคุ#ญ่ขีองกี้ะหล้�-าปล้� ได�แกี้�1. โรคุเน�าเล้ะขีองกี้ะหล้�-าปล้�สาเหต� เกี้�ดจำากี้เช่&�อราแบคุท�เร�ยล้#กี้ษณะอากี้าร โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอยช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2นจำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้งกี้ารป8องกี้#นกี้�าจำ#ด1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ10 องศาเซื้ล้เซื้�ยส...</DOC>

Summarization

Plant-Disease : <DOC_ID=“AGRIS0404200001”>

plant : กี้ะหล้�-าปล้� <PLANT_ID=“000123”>

disease : โรคุเน�าเล้ะ <DISEASE_ID=“000456”>

cause : เช่&�อราแบคุท�เร�ย <PATHOGEN_ID=“000789”>

symptom : โรคุน��พบได�เกี้&อบท�กี้ระยะกี้ารเจำร�ญ่เต�บโตแต�พบมากี้ในระยะ ท�-กี้ะหล้�-าปล้�ห�อห#ว โดยในระยะแรกี้พบเป�นจำ�ดหร&อบร�เวณม�ล้#กี้ษณะฉ่ำ�-าน��าคุล้�ายรอย

ช่��า ต�อมาแผล้จำะขียายล้�กี้ล้ามออกี้ไป ท�าให�เกี้�ดกี้ารเน�าเล้ะเป�นเม&อกี้เย��มม�กี้ล้�-นเหม2น จำ#ด เม&-ออากี้ารร�นแรงจำะท�าให�กี้ะหล้�-าปล้�เน�าเล้ะท#�งห#วแล้ะห#กี้พ#บล้ง

treatment : 1. ระม#ดระว#งอย�าให�เกี้�ดแผล้หร&อรอยช่��าท#�งขีณะเกี้2บเกี้�-ยวแล้ะขีนส�ง

2. ฉ่ำ�ดพ�นสารกี้�าจำ#ดแมล้งปากี้กี้#ดหร&อแมล้งว#นในแปล้งปล้�กี้3. กี้�าจำ#ดเศษว#ช่พ&ช่ออกี้จำากี้แปล้ง อย�าไถกี้ล้บ4. ในแปล้งปล้�กี้คุวรม�กี้ารระบายน��าด�5. หล้#งจำากี้เกี้2บเกี้�-ยวแล้�วให�เกี้2บผ#กี้ไว�ในท�-อ�ณหภ�ม�ต�-าประมาณ

10 องศาเซื้ล้เซื้�ยส

Overview processes

Page 32: The next generation knowledge management for multilingual agricultural information

32

Document KnowledgeStructure

Ontology

Text Extraction

Template

Problems•Multiple topics in one paragraph•Incomplete information•Dispersed information

Problems from document

Page 33: The next generation knowledge management for multilingual agricultural information

33

Document KnowledgeStructure

Ontology

Text Extraction

Template

Name-Entityrecognition

Explanation information Marker

(by paragraph classification)Summarization

Relevant paragraphs

selection

Frame elements composition

Retrieve reference id

Referen

ce idNew

en

tity

Text Extraction Architecture

Page 34: The next generation knowledge management for multilingual agricultural information

34

Summarization

Page 35: The next generation knowledge management for multilingual agricultural information

35

Knowledge SummarizationKnowledge Summarization

Text Extraction from IE

Knowledge Summarization

Knowledge Summary

Frame Structure

DiscourseStructure Theory

Page 36: The next generation knowledge management for multilingual agricultural information

36

Knowledge Interesting

• Agricultural Domain ( Thai Agri corpus )• Cause – Symptom – Treatment of Plant’s disease

• Knowledge integrations : ( Template + Discourse Structure)

• Frame-based summarization (specific information ,Min-Yen Kan,1999)

Page 37: The next generation knowledge management for multilingual agricultural information

37

Discourse Structure

• Model the global structure of the text and its relations to communicative goals

• Each relations compose 2 parts

• Nucleus : represent the essential piece of information

• Satellite : indicate supporting or background information

• Represent relation of textual unit with Tree structure

Page 38: The next generation knowledge management for multilingual agricultural information

38

Cause

Symptom

Treatment

Text Extraction from IE

nucleus

nucleus

nucleus

satellite

satellite

Discourse relation

A

BC

D E

Text Selected

nucleus

nucleus

nucleus

Discourse relation

A

B

D

A

B

D

Text Summary

Frame-based Discourse Summarization

Slots Information

Dis

cour

se S

umm

ariz

erF

ram

e-ba

sed

Page 39: The next generation knowledge management for multilingual agricultural information

39

Symptom Extraction from IE

<symptom ref="1" grp="1"> ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-ม

จำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��าเม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะ

ขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วน

น#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�าง รวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�น

น��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้ เย��ม ม�กี้ล้�-นแรงมากี้ กี้ล้�-นน��จำะเป�นกี้

ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้ จำะเน�าย�บตายไปท#�งต�น ซื้1-งอาจำแห�ง

เป�นส�น��าตาล้อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน</symptom>

Cause :

Symptom :

Treatment :

อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้รอยช่��า เล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียาย

ต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วน น#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อย

แล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรงมากี้

Template representationText Summary

SymptomSymptom

How to

Page 40: The next generation knowledge management for multilingual agricultural information

40

[E] หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไปท#�ง

ต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้อย��บนผ�วด�น

[A] ล้#กี้ษณะ อากี้าร

อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้

รอยช่��าเล้2กี้ๆเป�นจำ�ดฉ่ำ�-าน��า

[B] เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�าน

ยาว กี้ว�างแล้ะล้1กี้

[D] กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน��

Symptom Annotated from IE

[C] เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะเน�า

อย�างรวดเร2วท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้า

อ#นรวดเร2ว ม� เม&อกี้เย��ม ม�

กี้ล้�-นแรงมากี้

[F] อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อตรงกี้ล้างล้�าต�นกี้�อน

<symptom ref="1" grp="1"> ล้#กี้ษณะอากี้าร อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อ เร�-มจำากี้แผล้รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสมแผล้จำะขียายต#ว

ท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้ เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะ เน�าอย�างรวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#นรวดเร2ว ม�เม&อกี้เย��ม

ม�กี้ล้�-นแรงมากี้ กี้ล้�-นน��จำะเป�นกี้ล้�-นเฉ่ำพาะขีองโรคุน�� หล้#งจำากี้น#�นผ#กี้จำะเน�าย�บตายไป ท#�งต�น ซื้1-งอาจำแห�งเป�นส�น��าตาล้อย��บนผ�วด�น อากี้ารเน�าม#กี้จำะเร�-มท�-โคุนกี้�านไปหร&อ

ตรงกี้ล้างล้�าต�นกี้�อน</symptom>

Cause-Result

Consequence

Elaboration Elaboration

Elaboration

Disease :โรคุเน�าด�าขีองผ#กี้กี้าดหอม

Text Summary

Page 41: The next generation knowledge management for multilingual agricultural information

41

ผ กก�ดหอมี

Cause :

Symptom :

Treatment:

เช่&�อแบคุท�เร�ย

อากี้ารท#-วไปท�-เกี้�ดกี้#บผ#กี้กี้าดหอมห�อเร�-มจำากี้แผล้ รอยช่��าเล้2กี้ๆ เป�นจำ�ดฉ่ำ�-าน��า เม&-อส�-งแวดล้�อมเหมาะสม

แผล้จำะขียายต#วท�กี้ท�ศทางท#�งด�านยาว กี้ว�างแล้ะล้1กี้เน&�อเย&-อขีองพ&ช่ส�วนน#�นจำะอ�อนย�บต#วล้งแล้ะเน�าอย�าง

รวดเร2ว ท�าให�ส�วนน#�นเป7- อยแล้ะเป�นน��าภายในเวล้าอ#น รวดเร2ว ม�เม&อกี้เย��ม ม�กี้ล้�-นแรงมากี้

ในกี้ารเกี้2บเกี้�-ยวคุวรใช่�ม�ดคุมๆ ต#ดให�ขีาดเพ�ยงคุร#�ง เด�ยว เพ&-อไม�ให�เกี้�ดรอยแผล้ซื้��าหล้#งจำากี้ารเกี้2บเกี้�-ยว

คุวรผ1-งผ#กี้ไว�ในท�-โปร�ง อากี้าศถ�ายเทได�ด�

Frame Representation

Disease : โรคเน��ด��

Page 42: The next generation knowledge management for multilingual agricultural information

42

Discourse Summarization Procedure

1. To generating text segmentation (EDU: Elementary Discourse Unit )

2. To Build discourse tree structure from EDUs in step 1.

3. Select leaf nodes as Knowledge Summary(salient unit) .

Page 43: The next generation knowledge management for multilingual agricultural information

43

Knowledge Discovery

Page 44: The next generation knowledge management for multilingual agricultural information

44

Knowledge Processing Architecture

Template Construction

Template

Text Extraction

Knowledge Summary

Summarization

Knowledge Structure

Document

AnnotatedCorpus

KnowledgeExtraction

Generalizationrules

Knowledge Discovery

Ontology

Ontology

Page 45: The next generation knowledge management for multilingual agricultural information

45

Knowledge structure• Knowledge structure consists of

– Plant growing method• Variety selection

• Soil preparation

• Seedling preparation

• Cultural practice

– Plant disease and insect control• Cause and symptom

• Treatment / killing

• Protection

Page 46: The next generation knowledge management for multilingual agricultural information

46

Knowledge extraction

• Relation to be extracted– Cause relation

• e.g. Pyricularia grisea Causes of Blast disease in rice

– Effect relation• e.g. The Blast symptoms caused by Pyricularia grisea

are big brown spots like eye shape on leaf and……..

– Consequence relation

Page 47: The next generation knowledge management for multilingual agricultural information

47

Generalization of Cause/Result Relations

• Need processes• Knowledge representation

• Induction reasoning

• Need ontology to define the supper set of insect and micro organism: e.g Louse = {เพล้��ยไฟพร�กี้, เพล้��ยไกี้�แจำ�, เพล้��ยจำ#;กี้จำ#-นฝัอย, เพล้��ยจำ#;กี้จำ#-น ….}

Page 48: The next generation knowledge management for multilingual agricultural information

48

Knowledge Discovery

• Generalized Rules x Disease(x, เพล้��ยฯ)Symptom(x, ใบ, ใบหง�กี้งอ )

x Disease(x, Disease fromLouse)Symptom(x,leaf, curve )

x Disease(x, โรคุใบไหม�/โรคุไหม�)Symptom(x, ใบ, แผล้ส�เทา)

x Disease(x, Leaf blight/Blast)Symptom(x, leaf, grey blot)

Page 49: The next generation knowledge management for multilingual agricultural information

49

Knowledge Discovery

• Generalized Rules for symptom– All louses cause of curve leaf symptom in fruit

– All Blast and Blight leaf diseases in plant have

grey blots/spots

Page 50: The next generation knowledge management for multilingual agricultural information

50

From Generalized Symptoms Matrix to Inductive Prediction

• By using ID3 technique X3:leaf,curve

X7:leaf, grey blot

Y

Y

N

Disease caused by louse

Leaf blight/Blast Disease

Page 51: The next generation knowledge management for multilingual agricultural information

51

Information Retrieval

Multi-viewpoint Knowledge Tracking

Page 52: The next generation knowledge management for multilingual agricultural information

52

Why needs Multiviewpoint Knowledge Tracking?

Page 53: The next generation knowledge management for multilingual agricultural information

53

What’s Knowledge Tracking?

– Interesting Viewpoint of Knowledge that different for each user.

Technical Paper : 5

Track : Year

2000 2001 2002

1,4 2,3 5

Track :Author

Mr. A Mr. B

1,2,5 3,4

Page 54: The next generation knowledge management for multilingual agricultural information

54

Information Extraction

Documents

Parsing Document Structure

Title Extraction

Bibliography Extraction

Title Bibliography

Context

Page 55: The next generation knowledge management for multilingual agricultural information

55

IntelligentSearch Engine

Knowledge Portal Processing

WWW

Unstructured,Semi-structured,

StructuredDocument

Meta DataAnnotation tools

KnowledgeStructure

Thai AGRISCorpus

Agricultural Information Bases

Real-World Ontology

Ontology Task Oriented

Ontology

MultilingualDictionary

MT KT

System Architecture

Knowledge Tracking

Information in document1. Format2. Genre Type3. Subtype4. Domain5. Creator /Author6. Publisher7. Source8. Copy Right9. Identify 10. Keyword11. TitleThai12. TitleEng13. Date14. Language15. Editor/Contributor

Metadata & Ontology Based

Classification

Metadata & Ontology Based

Classification

Document ClassDocument ClassMulti-viewpointKnowledge Tracking

Multi-viewpointKnowledge Tracking

Title

Author Publisher

Keyword date

Domain

Document

Class 1 Class 2 Class n…

Page 56: The next generation knowledge management for multilingual agricultural information

56

ClassificationClassification

Corpus Training SetTraining Set

Metadata Extraction

C F

A

D

B E

NewDocument

Classification Process

Genre

Agriculture Economic Sport

C F A D B E

Prototype

Page 57: The next generation knowledge management for multilingual agricultural information

57

Multi-viewpoint Knowledge Tracking

Metadata Organizing

• Genre

• Domain

• Title

• Author

• Publisher

• Keyword

• Date

etc..

Plant

Disease

Cause SymptomPrevention

Ontology

Title

AuthorPublisher

Keyword date

Genre

Page 58: The next generation knowledge management for multilingual agricultural information

58

Search Engine VS. Knowledge Tracking

Search Engine Knowledge Tracking

1 2 3 4 5

Computer

Documents

1 2 3 4 5

Documents

Gain Knowledge About :- Have 5 Documents in Computer

Computer

Author Year

Line Author Year

A 2000

B 2001

C 2002

Gain Knowledge About :-Have 5 Documents in Computer-3 Authors Published In Computer Domain-Computer Domain Started at year 2000- and more ...

Extract from Doc.

Page 59: The next generation knowledge management for multilingual agricultural information

59

Knowledge Tracking : Different Tracking Paths (Same Documents)

1 23 4 5

Computer

Author

A B C

2000 2002 2004 2001 2002

1 2 34 5

Computer

Year

2000 2001 2002

A B C A C

Another Knowledge Gain :-Author B is a new researcher.-Author C publishes papers continuously-Author A do not publish in year 2001-And more...

Another Knowledge Gain :-Author C is only one who published in year 2001-Author A and B are pioneer researcher in domain.-And more ...

Page 60: The next generation knowledge management for multilingual agricultural information

60

Tracking by domain

Plant

Disease

Cause SymptomPrevention

Domain=Plant

C F A D B E

Title=Ginger Title=Cabbage Title=Cucumber

Page 61: The next generation knowledge management for multilingual agricultural information

61

Title=Cabbage

A D

Author=Doae Author=KU

Plant

Disease

Cause SymptomPrevention

Tracking by title

Page 62: The next generation knowledge management for multilingual agricultural information

62

Plant

Disease

Cause SymptomPrevention

Tracking by author

Author = KU

C F A D B E

Title=Ginger Title=Cabbage Title=Cucumber

Page 63: The next generation knowledge management for multilingual agricultural information

63

MetadataClassification

MachineTranslation

mode

Input word search

Contentarea

Page 64: The next generation knowledge management for multilingual agricultural information

64

Page 65: The next generation knowledge management for multilingual agricultural information

65

Page 66: The next generation knowledge management for multilingual agricultural information

66

Page 67: The next generation knowledge management for multilingual agricultural information

67

Page 68: The next generation knowledge management for multilingual agricultural information

68

ConclusionTo Be continued :Forever Maintaining Ontology in

• AFITA/WCCA2004

Joint Conference the 4th International Conference of the Asian Federation of Information Technology in Agricultural andThe 2nd World Congress of Computers in Agricultural and Natural Resources

August 9-12,2004 in Bangkok, Thailand

Page 69: The next generation knowledge management for multilingual agricultural information

69

THE END.

Thank you for your attention.

Page 70: The next generation knowledge management for multilingual agricultural information

84

Future Works

• Dissolving Problems

– Head VS. Non-Head of NP• ม�กี้ารน�าใบหมี�อนมาใช่�เป�นอ�ห�รส ตำว$ เช่�น ปล์� ว ว คว�ย เป�นต�น

– Implicit Expression in Sentence level สารพ�ษในโล้�ต�;น ม�คุ�ณสมบ#ต�ในกี้ารไล้�แมีล์ง ถ�าใช่�ในร�ปผงจำะม�ประส�ทธิ�ภาพ

ใน กี้ารฆ่�า หมี ด เห+บ ไรไก� ปล์วก แมีล์งว น