Top Banner
Taxonomic classification of digitized specimens using machine learning Rutger Vos
15

Taxonomic classification of digitized specimens using machine learning

Apr 12, 2017

Download

Science

Rutger Vos
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Taxonomic classification of digitized specimens using machine learning

Taxonomic classification of digitized specimens using

machine learning

Rutger Vos

Page 2: Taxonomic classification of digitized specimens using machine learning

Taxonomic classification1 of digitized specimens2 using machine learning3

1.  To give the right taxonomic name to a thing, or at least approximate it to a higher level (e.g. Genus, Family)

2.  Photographs of biological objects, e.g. from a natural history collection and taken in a standardized setup

3.  Machine learning explores the study and construction of algorithms that can learn from and make predictions on data

Page 3: Taxonomic classification of digitized specimens using machine learning

Case study: slipper orchids

Slipper orchids •  Traded illegally •  Photographed “in the wild”

Page 4: Taxonomic classification of digitized specimens using machine learning

Case study: Javanese butterflies

Van Groenendael-Krijger collection •  Collected in the 1930s •  Photographed in standardized setup

Page 5: Taxonomic classification of digitized specimens using machine learning

Project structure overview

•  Open source, freely available at: github.com/naturalis

•  Designed as loosely coupled, swappable modules

•  Intended for re-use for multiple cases

Page 6: Taxonomic classification of digitized specimens using machine learning

Project structure: reference images

photos [table]id INTEGER NOT NULLmd5sum VARCHAR(32) NOT NULLpath VARCHAR(255)title VARCHAR(100)description VARCHAR(255)

photos_tags [table]photo_id INTEGER NOT NULLtag_id INTEGER NOT NULL

tags [table]id INTEGER NOT NULLname VARCHAR(50) NOT NULL

photos_taxa [table]photo_id INTEGER NOT NULLtaxon_id INTEGER NOT NULL

taxa [table]id INTEGER NOT NULLrank_id INTEGER NOT NULLname VARCHAR(50) NOT NULLdescription VARCHAR(255)

ranks [table]id INTEGER NOT NULLname VARCHAR(50) NOT NULL

Page 7: Taxonomic classification of digitized specimens using machine learning

Project structure: image processing

Speeded Up Robust Features

Page 8: Taxonomic classification of digitized specimens using machine learning

Project structure: machine learning

Page 9: Taxonomic classification of digitized specimens using machine learning

Project structure: optimization

Page 10: Taxonomic classification of digitized specimens using machine learning

Project structure: user interface

Page 11: Taxonomic classification of digitized specimens using machine learning

Results: SURF features

��������������

������

��������������

������� �������

�������

����������������

�������

��������

�������

�������

��������

������

�������

��������������

�������

�������

��������������

�������

���������������������

�������

����������������

�������

��������

�������

�������

��������� ���������

�������

������

�������

������

�������

����������

���

������

����

������

���������

������

��������������

���������

�������

������������

�������

������

������

������������

�������

������

������

��� ������

������

�������

�������

������

����

������

�������

����

����

��������

�������

���������

����

������� ������

����

�������

�������

�������

���

���

�������������

��������������

�������

����������

����������������

�������

�������

��������

������

������

�����������������

������

�������

���

�������

�������

�������

������

���������

������

�������

�������

�������

���

�������

�������

�������������������

�����������

������

��� �������������

�������

������

�������

������

��������

�������

�������

������

����������

����������

�������

���

������

�������

���

��������������

�������

���

�������

������� �������

�������

���

�������

�������

�������

��������������

����������

�������

������

��������

���

�������

������

�������

�������

���

�������

�������

������

�������

����������

����������������

������

�������

����������

����������

����������

���������

�������

����������

�������������������

���

������

�������

������

��������

����������

���������������� ���������

�������

�������

���

�������

���������������������

�������

��������

�����

������

�����������������������

������

���������

������

������������������������

������

������

�������

�������

��������

������

�������

����������

������

���

����

���

��������� �������

�������

���������

�������

����������

����������

�������

�������

������

������

�������

���

�������

��������

������

����

������������

��������

�������

�������

���

���

��������

���

������

����������

������

�������

������

�������

��������

�������

�������

���������

�������

����������

������

���

����������

���������

���

������������������

������� �������

������

������������������������������

���������

����������

�������

������

����������

������

�������

����������

���

������

������

�������

�����������

����������

�������

������

������

����

���

�������

��������������

����

����������

�������

����������

����������

��������

���

���

�������

�����

��������

�������

������

���

�������

�������

������

������������������

���������

���

��������

�����������������

���

�������

���

���

�������

����������

������

����������������

�������

������� ����������

���

�������

����������

�����

�������

������

�����

������

�������

�������

������

����������

����������

����������

���

�������

�����

��������

������

������� ������

���

����������������

���

����������

������

���

�������

�������

������

�������������

������

����������

���

�������

�������

������

��

��� �� � � �� �����

���

�� �

���������������

��������

!�����

������

"���

"������

#������

���������

������

��������

$�����

%��� �&� ������ ��������� ��� �����

��������������

������

��������������

������� �������

�������

����������������

�������

��������

�������

�������

��������

������

�������

��������������

�������

�������

��������������

�������

���������������������

�������

����������������

�������

��������

�������

�������

��������� ���������

�������

������

�������

������

�������

����������

���

������

����

������

���������

������

��������������

���������

�������

������������

�������

������

������

������������

�������

������

������

��� ������

������

�������

�������

������

����

������

�������

����

����

��������

�������

���������

����

������� ������

����

�������

�������

�������

���

���

�������������

��������������

�������

����������

����������������

�������

�������

��������

������

������

�����������������

������

�������

���

�������

�������

�������

������

���������

������

�������

�������

�������

���

�������

�������

�������������������

�����������

������

��� �������������

�������

������

�������

������

��������

�������

�������

������

����������

����������

�������

���

������

�������

���

��������������

�������

���

�������

������� �������

�������

���

�������

�������

�������

��������������

����������

�������

������

��������

���

�������

������

�������

�������

���

�������

�������

������

�������

����������

����������������

������

�������

����������

����������

����������

���������

�������

����������

�������������������

���

������

�������

������

��������

����������

���������������� ���������

�������

�������

���

�������

���������������������

�������

��������

�����

������

�����������������������

������

���������

������

������������������������

������

������

�������

�������

��������

������

�������

����������

������

���

����

���

��������� �������

�������

���������

�������

����������

����������

�������

�������

������

������

�������

���

�������

��������

������

����

������������

��������

�������

�������

���

���

��������

���

������

����������

������

�������

������

�������

��������

�������

�������

���������

�������

����������

������

���

����������

���������

���

������������������

������� �������

������

������������������������������

���������

����������

�������

������

����������

������

�������

����������

���

������

������

�������

�����������

����������

�������

������

������

����

���

�������

��������������

����

����������

�������

����������

����������

��������

���

���

�������

�����

��������

�������

������

���

�������

�������

������

������������������

���������

���

��������

�����������������

���

�������

���

���

�������

����������

������

����������������

�������

������� ����������

���

�������

����������

�����

�������

������

�����

������

�������

�������

������

����������

����������

����������

���

�������

�����

��������

������

������� ������

���

����������������

���

����������

������

���

�������

�������

������

�������������

������

����������

���

�������

�������

������

��

��� �� � � �� �����

���

�� �

�������������������

�������������

������

����������

���������

���������

������

���������

��� ������

�������

����

�����

��������

�����

�������

������

�������

������

�������

������

�������

������

�������

���

���

�������

������

�������

���� � � ������ ��������� ��� ������

•  PCA plots of the “speeded up robust features” show clustering both at the genus (top) and species (bottom) level

•  Some species are so dimorphic that the sexes are treated as separate species (not shown)

•  Some individuals are “gynandromorphic”, though there is likely positive collection bias

•  Some taxa are much more variable than others

Page 12: Taxonomic classification of digitized specimens using machine learning

Results: k-folds cross-validation

•  Split the data in k (2, 5, 10) partitions •  Train on 1 partition, use k-1 as “out-of-sample” data •  Count number of correct/incorrect/unknown identifications

Page 13: Taxonomic classification of digitized specimens using machine learning

Next steps

•  Application of trained neural networks to the entire VGKS collection (once that is fully digitized)

•  Testing other classifiers in addition to ANNs

•  Improvement of the end user interface, possibly as a native ‘app’ or on the web

•  Extension of the platform to additional cases, such as shells (snails, bivalves)

•  Do more with the image feature data: mimicry, character displacement, dimorphism

Page 14: Taxonomic classification of digitized specimens using machine learning

Acknowledgements Naturalis sector Collection •  Max Caspers •  Luc Willemse •  Jan Moonen •  Digitization volunteers Hogeschool Leiden •  Barbara Gravendeel •  Patrick Wijntjes •  Saskia de Vetter LIACS •  Fons Verbeek •  Mengke Li •  Yuanhao Guo

IBL •  Wim van Tongeren WUR •  Feia Matthijssen Made possible by •  Naturalis internal grant for

application-oriented research •  The Van Groenendael-Krijger

Stichting •  Kind contributions of photos by

numerous orchid breeders

Page 15: Taxonomic classification of digitized specimens using machine learning

Thanks for listening!