This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
5 Trends spotten op Internet ................................................................................... 44 5.1 Service ..................................................................................................................... 44 5.2 Technologie ............................................................................................................. 45 5.3 Organisatie .............................................................................................................. 50 5.4 Financiën ................................................................................................................. 51 5.5 Conclusies ............................................................................................................... 52
6 Conclusies en Aanbevelingen .............................................................................. 53
7 Programma "Beeldtechnologie naar de Praktijk" .............................................. 55
TNO-rapport | 3 / 55
Managementsamenvatting
Dit rapport presenteert de bevindingen vanuit het project Beeldmerken dat is
uitgevoerd binnen het programma Herkenning Digitale Informatie en Fingerprinting
(HDIeF) van de NCTV. De doelstelling van dit onderzoeksprogramma is het
stimuleren van bestaande en nieuwe initiatieven om deze technieken te helpen
verbeteren opdat ze beter toepasbaar worden binnen de openbare orde en
veiligheidssector (OOV).
Dit rapport richt zich op het bruikbaar maken van beeldmateriaal dat beschikbaar is
in open bronnen op het internet en haar sociale netwerken (OSINT). Er zijn relatief
weinig tools beschikbaar om dit materiaal te verwerken, terwijl de potentie hoog is.
Er zijn drie cases uitgewerkt: locatie herkennen in Twitter foto's, YouTube scannen
en trends spotten in internetbeelden. Deze cases zijn uitgewerkt aan de hand van
het STOF model, dat stelt dat Service, Technologie, Organisatie en Financiën
haalbaar en op orde moeten zijn om een succesvolle ICT dienst te realiseren. De
inventarisatie laat zien dat het automatisch verwerken van internetbeelden door
middel van een nationale aanpak goed te realiseren is.
Het verwerken van beeldmateriaal brengt bewust of onbewust privacy risico’s met
zich mee. De privacy, juridische en forensische aspecten worden in dit rapport niet
expliciet benoemd. Deze inventarisatie is voornamelijk gericht op het inzichtelijk
maken van het proces om een deze ICT diensten te realiseren. Indien er vervolg
wordt gegeven aan deze ontwikkeling, dan zal aandacht besteed moeten worden
op welke wijze privacy in het ontwerp van deze ICT diensten meegenomen moet
worden.
TNO-rapport | 4 / 55
1 Introductie
Betrouwbaar en veilig internet is essentieel voor een veilige maatschappij. Het
internet fungeert als ruggengraat voor vitale infrastructuren als telecom en
financiële markten. Ook speelt een groeiend deel van het sociale leven zich af op
het internet . Internet groeit en is multimediaal. De audio-, video- en
tekstdocumenten die beschikbaar zijn, bevatten relevante data voor
veiligheidsdiensten. De nadruk bij opsporingsmethodieken op internet ligt op
tekstanalyse, voornamelijk omdat tekst makkelijker te verwerken is. Beeldmateriaal
is in de context van opsporing en handhaving interessant, vanwege de
gedetailleerde en overtuigende inzichten die foto’s en video’s op kunnen leveren.
Vanwege een gebrek aan goede ICT diensten is het grootste deel van online
beeldmateriaal niet bruikbaar voor veiligheidsdoeleinden.
Handmatig verwerken van beeldmateriaal is tijdintensief en dus erg duur, terwijl het
automatisch verwerken van beeld- en videomateriaal uitermate complex is. Dit blijkt
uit verschillende initiatieven en onderzoeken met relevante inzichten, maar relatief
weinig bruikbare tooling. Gegeven de potentie van beeldmateriaal op het internet is
dus de vraag:
Welke aanpak moet gekozen worden om praktisch bruikbare diensten te realiseren
die automatisch beeldmateriaal verwerken?
Deze vraag wordt beantwoord voor drie concrete ICT diensten aan de hand van het STOF (service, technologie, organisatie, financiën) model:
Locatieherkenning op Twitter (hoofdstuk 3),
YouTube Scannen (hoofdstuk 4),
Trends Spotten op Internet (hoofdstuk 5).
Figuur 1. Dit rapport onderzoekt drie beeld gebaseerde diensten, die zijn gebaseerd op Twitter,
YouTube en Internet.
Het resultaat: de complexiteit van beeldtechnologie in de praktijk wordt inzichtelijk.
Voor de cases zijn de investeringskosten, de operationele kosten de
organisatorische verbanden met de technologische ontwikkelingen in kaart
gebracht. De cases zijn erop gericht online beeldmateriaal in te zetten voor het
uitvoeren van de taken van veiligheidsdiensten.
TNO-rapport | 5 / 55
2 Achtergrond
Beeldmateriaal vervult vaak een sleutelrol in de veiligheidsketen. Alle mobiele camera’s tezamen bieden in combinatie met sociale media feitelijk een groeiend ad-hoc camera netwerk. Dit gegeven maakt de potentie alleen maar groter. Beeldmateriaal kan bijvoorbeeld verschillende informatie bronnen met elkaar in verband brengen, waardoor een compleet beeld kan ontstaan ten behoeve van waarheidsvinding, opsporing, fenomeenanalyse of vroeg-signalering. Beeld- en videomateriaal van het internet blijkt lastig te gebruiken. Dit materiaal is ongelijkvormig, ongesorteerd en onbetrouwbaar. Ondanks de mogelijkheden en deze technologische belofte blijkt het buitengewoon lastig om bruikbare diensten te ontwikkelen. Er zijn voldoende voorbeelden beschikbaar waar de verwachtingen achteraf te hoog gespannen bleken. Als we het gebruik van beeldtechnologie plotten op Gartner’s hype cycle
1 dan is de vallei van
desillusie net gepasseerd en zijn we op weg naar productie niveau, zoals Figuur 1 laat zien. De analyse van drie ICT diensten, die in dit rapport worden gepresenteerd, wordt een aanpak afgeleid om dit niveau van volwassenheid te bereiken.
Figuur 2. Het gebruik van beeldtechnologie voor cyber security kan op Garnter’s hype cycle
gepositioneerd worden net voorbij de desillusie.
2.1 STOF model
Verschillende stakeholders geven aan de technische potentie niet te betwijfelen,
maar hebben vooral vragen over het praktisch bruikbaar maken van
beeldtechnologie. Bijvoorbeeld als ik YouTube wil monitoren, kan dat?
Deze feedback is aanleiding geweest om te onderzoeken wat nodig is om de
technologie bruikbaar te maken. Hiervoor is het STOF model2 gebruikt. Dit model
stelt dat de vier domeinen op orde moeten zijn wil een dienst succesvol kunnen
worden. Dit model is als volgt gedefinieerd:
Service domein: betreft de dienstverlening, de toegevoegde waarde van de
dienstverlening voor het veiligheidsnetwerk.
1 http://www.gartner.com/technology/research/methodologies/hype-cycle.jsp 2 Creating Successful ICT-Services: Practical guidelines based on the STOF method; Edward
hashing (e.g. MD5) is fragile; an error in a single bit is sufficient for the hash to completely
change. These fragile hashing technologies are not considered to be content-based
identification technologies since they do not consider the content, understood as
information, just the bits."
Figuur 3. Schematische uitleg hoe fingerprinting gebruikt wordt door CIvolution4
2.3.2 Conceptherkenning
EUvision Technologies5 legt de essentie van conceptherkenning als volgt uit:
"In short, the technology can be trained to recognize anything, for instance cars. This is
realized by providing hundreds or thousands of examples of pictures of cars. The software
then generalizes over what it ‘sees’. It will then recognize a car whether it is in shadow or
not, whether the sky is blue or cloudy, or whether the image is recorded from the left or from
the right, whether the car is blue or red or black, or whether it is an old timer or brand new
model. Therefore, this technology allows for understanding the ‘essence’ or ‘concept’ of an
image, similar to the human brain."
2.3.3 Beeldmerktechnologie
De essentie van beeldmerktechnologie is het vinden van corresponderende
beeldkenmerken in minimaal twee afbeeldingen. Er zijn verschillende definities voor
deze beeldkenmerken, vaak wordt hiervoor SIFT6 of SURF
7 kenmerken gebruikt.
De SURF aanpak wordt door Bay als volgt uitgelegd:
4 http://www.civolution.com/technology/digital-fingerprinting/ 5 http://www.euvt.eu/concept-detection/ 6 D. G. Lowe, "Object recognition from local scale-invariant features". Proceedings of the
International Conference on Computer Vision, 1999. 2. pp. 1150–1157. 7 H. Bay, T. Tuytelaars, and L. V. Gool, "SURF: Speeded up robust features," in Proc. of ECCV’06.
Graz, Austria: Springer-Verlag, May 2006, pp. 404–417.
TNO-rapport | 9 / 55
"The task of finding correspondences between two images of the same scene or object is
part of many computer vision applications. Camera calibration, 3D reconstruction, image
registration, and object recognition are just a few. The search for discrete image
correspondences can be divided into three main steps. First, ‘interest points’ are selected at
distinctive locations in the image, such as corners, blobs, and T-junctions. The most
valuable property of an interest point detector is its repeatability, i.e. whether it reliably finds
the same interest points under different viewing conditions. Next, the neighbourhood of
every interest point is represented by a feature vector. This descriptor has to be distinctive
and, at the same time, robust to noise, detection errors, and geometric and photometric
deformations. Finally, the descriptor vectors are matched between different images. The
matching is often based on a distance between the vectors, e.g. the Mahalanobis or
Euclidean distance. The dimension of the descriptor has a direct impact on the time this
takes, and a lower number of dimensions is therefore desirable."
Figuur 27 presenteert een voorbeeld: Magellan8 beeldmerktechnologie wordt
gebruikt om een Samsung logo te herkennen in een sportvideo. Dit logo is
gevonden op basis van typische beeldkenmerken die contrast en vormen van een
Samsung logo karakteriseert. De technologie wordt onder andere gebruikt voor het
meten van merk exposure.
Figuur 4. Voorbeeld hoe beeldmerktechnologie gebruikt kan worden, waarbij de sponsor Samsung
is herkend.
2.4 Organisatie van dienstverlening
Voor de verwerking van beeldmateriaal zijn verschillende organisatiemodellen
mogelijk. Voor de levering van een informatie gedreven dienst zijn twee
componenten essentieel: technologie en data. Technologie moet helpen om een
zoekvraag van een gebruiker op te lossen, waarbij veelal een referentiedatabase
2. YouTube video’s scannen; De dienst scant vervolgens 24/7 de nieuwste
video’s die op YouTube wordt gepubliceerd op zoek naar de geselecteerde
beeldmerken.
3. Feedback geven; De mogelijk relevante video’s worden vervolgens aan de
onderzoeker aangeboden, om de inhoud ervan vervolgens handmatig te
interpreteren en de mogelijke impact te beoordelen.
Figuur 23. Werking van de dienst “YouTube Scannen”
Uitdaging en toegevoegde waarde
De essentie van de uitdaging om deze dienst te realiseren is:
Hoe kan beeldmerktechnologie relevante YouTube video’s herkennen?
Deze dienst moet voldoen aan de volgende eisen om bruikbaar te zijn:
Betrouwbaar; De dienst moet resultaten teruggeven die het geselecteerde
beeldmerk bevatten. Daarnaast moet je er op kunnen rekenen dat de dienst
geen beeldmerken heeft gemist.
Real-time; De dienst moet relevante resultaten zo snel mogelijk kunnen vinden
nadat ze gepubliceerd zijn. Er wordt uitgegaan van maximaal een uur na
publicatie.
De belangrijkste toegevoegde waarde van deze ICT dienst is snel geïnformeerd zijn
over relevante video’s in plaats van deze toevallig in het zicht krijgen. Denk
Analyse
afbeeldingen
Exit
Number
matching
keypoints
Anonymous
Bv. Specifieke beeldmerken:
Relevantie
model
AnonymousAl Qa’ida
Onderzoekers
3. Feedback geven
1. Modelleren
2. YouTube framesscannen
TNO-rapport | 34 / 55
bijvoorbeeld aan de “nep”-Anonymous video36
die recent door een puber werd
gepubliceerd.
4.2 Technologie
Dit hoofdstuk verkent het gebruik van beeldmerktechnologie voor de beoogde ICT
dienst. Deze bestaat uit een inventarisatie van de state of the art, vervolgens enkele
experimenten gebaseerd op OpenCV om zicht te krijgen op de mogelijkheden van
deze open source oplossing en ten slotte wordt de architectuur gepresenteerd van
de dienst met bijbehorende onderzoeksvragen.
4.2.1 State of the Art
TRECVID: Instance Search37
Het belangrijkste doel van de TREC Video Retrieval Evaluation (TRECVID) is
vooruitgang boeken in de semantische analyse van digitale video door middel van
evaluatie. TRECVID is een laboratorium-achtige evaluatie, die probeert reële
situaties of belangrijke taken te modelleren. Dit levert inzichten op welke aanpakken
succesvol zijn op een gemeenschappelijke dataset en kennis over welke situaties
makkelijker of moeilijker zijn. TRECVID levert geen productierijpe tools op.
Binnen TRECVID zijn verschillende taken gedefinieerd, waaronder “Instance
Search” waar TNO38
aan heeft bijgedragen in 2010, 2011 en 2012. Binnen deze
taak moeten specifieke concepten, zoals personen, locatie’s en objecten, worden
gevonden in ongeveer 1000 video’s op basis van één of meer voorbeeld
afbeeldingen.
De geteste oplossing is gebaseerd op het Bag-of-Words model. Deze benadering
vertaalt ieder beeldkenmerk naar visueel woord. Met een op tekst gebaseerde
zoekmachine worden deze woorden, en daarmee dus de video’s, doorzoekbaar
gemaakt.
Belangrijke conclusies van het TNO onderzoek zijn:
Als een zoekvraag is afgebakend tot een onderscheidend visueel concept, dan
werkt de herkenning beter.
Als minder visuele woorden worden gedefinieerd (256 in plaats van 1024), dan
levert dit betere resultaten op.
Als interactief wordt gezocht, dan worden er betere resultaten bereikt als per
iteratie de zoekvraag wordt aangescherpt.
Verbetering objectherkenning op YouTube video’s39
Deze publicatie presenteert een aanpak om objecten te herkennen in YouTube
video’s door de relevante concepten te definiëren met meerdere afbeeldingen. De
kracht van beeldmerktechnologie zit in het herkennen van structuren op platte
36 Tele2, KPN, Ziggo en UPC bereiden zich voor op cyberaanval;
http://www.nu.nl/internet/2932518/tele2-kpn-ziggo-en-upc-bereiden-zich-cyberaanval.html 37 http://www-nlpir.nist.gov/projects/tv2012/tv2012.html 38 xxxxxxxx, “Notebook paper: TNO instance search submission 2011”, Proc. TRECVID, (2011). 39 M. Bassiouny and M. El-Saban, Object matching using feature aggregation over a frame
sequence. In Proceedings of WACV. 2011, 95-102.
TNO-rapport | 35 / 55
vlakken, terwijl de meeste objecten bestaan uit gekromde oppervlaktes met
verschillende belichtingseffecten. In dit geval werkt de technologie niet altijd even
goed. Deze publicatie stelt voor om een korte video van het object als input te
gebruiken, daar enkele shots uit te extraheren en vervolgens wordt de matching
uitgevoerd op basis van lokale features en corresponderende kenmerken. Deze
publicatie laat zien dat het leren van een model op basis van meerdere shots leidt
tot ongeveer 20% betere resultaten ten opzichte van modellen gebaseerd op één
frame of één afbeelding. Deze resultaten zijn getest op een aantal YouTube
video’s.
Kortom, zowel uit deze publicatie als uit de TRECVID inspanningen blijkt het belang
van een meerdere voorbeeldafbeeldingen om mee te zoeken.
Tabel 8. YouTube API voorbeelden
Toelichting API http://gdata.YouTube.com/demo/index.html
Meest recente video’s http://gdata.YouTube.com/feeds/base/standardfeeds/
most_recent?client=ytapi-YouTube-browse&alt=rss
Meest populaire video’s http://gdata.youtube.com/feeds/api/standardfeeds/
most_popular
Zoeken http://gdata.YouTube.com/feeds/
api/videos?orderby=updated&vq=##zoekterm##
YouTube API
YouTube biedt verschillende APIs (Tabel 8) om informatie over YouTube video’s op
te vragen, zoals de populairste video’s, de nieuwste video’s of video’s waarbij een
bepaald keyword wordt genoemd. YouTube biedt ook RSS feeds aan om deze
informatie op te halen (Figuur 24). Een belangrijk element zijn de UIDs, de
zogenaamde “unique identifiers” die gebruikt worden om een video te identificeren.
De UID van een video is de cryptische string die volgt na het “=”-teken:
http://www.YouTube.com/watch?v=MU8yGWHwM2k.
Figuur 24. De RSS-feed met de meest recente YouTube videos; sommige videos bevatten bijna
geen metadata, zoals dit voorbeeld laat zien.
TNO-rapport | 36 / 55
YouTube biedt de mogelijk aan de uploader om video’s in verschillende resoluties
te plaatsen, zoals Figuur 25 inzichtelijk40
maakt. De factoren die de beschikbare
resoluties bepalen zijn:
Het gebruikte apparaat om de content te bekijken (een laptop of pc ondersteunt
hogere resoluties dan een Smartphone).
De beschikbare bandbreedte.
De kwaliteit van het bronmateriaal..
Voor een 720p video inclusief audio is de benodigde bitrate 2 – 3,5 Mbit per
seconde. Op dit moment is 10% van de video’s is beschikbaar in HD kwaliteit (dat
betekent 720p of hoger). De verwachting is dat dit percentage zal toenemen:
moderne smartphones (iPhones, Android) en tablets ondersteunen steeds meer
opname in HD resolutie. Ook de toename van professionele content zal leiden tot
een groei in content aangeboden in hogere resolutie. Dit rapport hanteert een
gemiddelde bandbreedte per video van 2Mbit per seconde.
Figuur 25. Overzicht met verschillende kwaliteiten die YouTube biedt; dit rapport hanteert een
gemiddelde bandbreedte per video van 2Mbit per seconde.
De YouTube API biedt geen optie om video’s te downloaden. Toch kan middels
scripts, software of bepaalde websites nagenoeg elke video worden gedownload.
In hoeverre dit toegestaan is, is onduidelijk. Wel is duidelijk dat er een
wapenwedloop is tussen Google, dat probeert het downloaden onmogelijk maken,
en de aanbieders van download-tools, die de nieuwste beveiligingsmaatregelen
proberen te omzeilen.
Met behulp de YouTube API kan je een video starten vanaf een bepaald tijdstip:
http://www.YouTube.com/watch?v=kArc9v6JHSg#t=10s (start bij t=10s)
http://www.YouTube.com/watch?v=kArc9v6JHSg#t=20s (start bij t=20s).
Deze eigenschappen kunnen gebruikt worden bij het downloaden, zodat niet de
volledige video gedownload hoeft te worden.
YouTube biedt niet alleen video’s aan, maar ook losse screenshots
(i.ytimg.com/vi/##UID##/0.jpg) en een storyline aan per video, voor het verrijken
van de user-experience, zoals Figuur 26 laat zien. Deze shots zijn los op te vragen,
zonder dat de video volledig bekeken of gedownload hoeft te worden.
Kortom, YouTube biedt mogelijkheden om bijvoorbeeld de UIDs van de nieuwste
videos te vinden en daarnaast per video een screenshot te verkrijgen. Daarentegen
biedt YouTube geen mogelijkheden om op basis van beeldinformatie te zoeken of
videos te scannen.
a. b.
Figuur 26a. Voorbeeld van een screenshot; en b. storyline die te verkrijgen zijn bij een video.
4.2.2 Experiment
Op basis van een aantal cases is onderzocht in hoeverre de beeldmerktechnologie
zoals die is geïmplementeerd in OpenCV relevante concepten kan herkennen.
Figuur 27 presenteert een match van het Anonymous logo met een Anonymous
masker afkomstige uit een YouTube video. Het aantal corresponderende
beeldkenmerken is van dien aard dat het experiment geslaagd is. Het laat
bijvoorbeeld zien dat de effecten van de videocompressie niet verstorend zijn voor
de matching.
Figuur 27. Beeldmerktechnologie toegepast op een Anonymous logo en de corresponderende
kenmerken met het Anonymous masker in een YouTube video.
Figuur 28 presenteert een voorbeeld waarbij een match is gevonden tussen twee
afbeeldingen, waarbij één van de afbeeldingen is gemanipuleerd. Dit voorbeeld laat
zien dat deze experimentele implementatie robuust is tegen variaties in de
afbeelding als er maar voldoende beeldkenmerken beschikbaar zijn die wel
overeenkomen met een gezocht model.
TNO-rapport | 38 / 55
Figuur 28. Match tussen twee afbeeldingen met de Tattoo killers, waarbij één van de afbeeldingen
is gemanipuleerd.
Tenslotte maakt het voorbeeld in Figuur 29 duidelijk dat de technologie enige
flexibiliteit met zich meebrengt. De twee al Qa’ida logo’s zijn niet exact gelijk en
toch wordt er een correcte match gevonden. Uiteindelijk vereist het optimalisatie
van de verschillende parameters om enerzijds flexibel te zijn voor voldoende
precisie en anderzijds strak genoeg te zijn voor zo min mogelijk vals-positieve
matches.
Figuur 29. Corresponderende beeldkenmerken tussen twee al Qa’ida logo’s, waarbij de logo’s
duidelijk niet exact gelijk zijn.
4.2.3 Architectuur
Figuur 30 presenteert de architectuur op hoofdlijnen voor de ICT dienst “YouTube
Scannen”. De architectuur bestaat grofweg uit drie processen:
1 Verzamelen UIDs; dit zijn de UIDs van de nieuwste video’s. Deze UID’s
kunnen verkregen worden via de YouTube API, maar ook uit sociale media of
bijvoorbeeld als resultaat van een zoekactie.
2 Snelle test; Op basis van beschikbare metadata bepaalt een snelle test (<
1ms) of de video wel of niet relevant is. Als er weinig of geen tekstuele
metadata beschikbaar is, kan het enkele frame op beeldinhoud getest worden.
3 Precieze test; Op basis van een grondige analyse van de beeldinhoud van de
video wordt definitief vastgesteld of de video relevant is voor een eindgebruiker.
Dit betreft het extraheren van onderscheidende frames (bijvoorbeeld elke 10s
één frame) uit de video en deze analyseren. Tenslotte zullen de eindgebruikers
de video’s voorgelegd krijgen met een positieve precieze test.
TNO-rapport | 39 / 55
Figuur 30. Architectuur voor de dienst “YouTube Scannen”, bestaande uit drie processen: UIDs
verzamelen, snelle test en een precieze test.
Per proces zijn dit de belangrijkste onderzoeksvragen:
1 Verzamelen UIDs
1.1 Wordt 100% van de nieuwste UIDs aangeleverd door de API? Of is het
een fractie? Indien het een fractie betreft, welke maatregelen kunnen er
genomen worden om tot een acceptabel percentage te komen?
2 Snelle test
2.1 Met welke zekerheid kan deze snelle test worden uitgevoerd? Het is
onmogelijk elk frame van elke YouTube video te analyseren, dus is de
eerste selectie op basis van concept herkenning erg belangrijk voor de
betrouwbaarheid van de dienst.
2.2 Hoe betrouwbaar is de tekstuele metadata?
2.3 Hoe kan conceptherkenning ingezet worden voor het uitsluiten op basis
van een enkel frame?
3 Precieze test
3.1 Op welke wijze kunnen de video’s gedownload worden? Is dit een
toekomstbestendige oplossing?
3.2 Welke precisie en foutmarge kan worden bereikt? Kortom, hoeveel
voorgelegde video’s zijn relevant en hoeveel video’s worden gemist?
3.3 In hoeverre is compressie van invloed op de herkenningskwaliteit?
3.4 Hoeveel relevante video’s blijven over? Dit is onder andere van belang
voor de wijze waarop het materiaal vervolgens uitgekeken moet worden.
Test
metadata
of frame
Test
frame
Videoframe
- Extraheer UIDs uit “most recent videos”
- Extraheer UIDs op basis van zoeken
- Extraheer UIDs uit andere bronnen,
zoals sociale media.
Exit
Relevante video’s voorleggen
UIDFrame
downloaden
Video
UIDVideo
downloaden
Extraheer
subset
videoframes
Extraheer
frame
per
videoshot
ExitEindgebruikers
1. UIDs verzamelen
2. Snelle test
3. Precieze test
TNO-rapport | 40 / 55
3.5 Hoe kan een gebruiker zoveel mogelijk video’s zo snel mogelijk
bestuderen? Hierbij kan gedacht worden aan een MosaicUI interface
zoals Figuur 31 presenteert.
Figuur 31. MosaiUI41 interface om snel grote hoeveelheden video te analyseren.
4.3 Organisatie
Voor de organisatie van de dienst “YouTube Scannen” zijn de belangrijkste zaken: impact op de gebruikersorganisatie, samenwerking met data en technologie leveranciers en de dimensionering van de infrastructuur die ingericht moet worden.
4.3.1 Gebruikersorganisatie
Deze nieuwe diensten hebben uiteraard ook impact op de gebruikersorganisatie.
Voor hen is belangrijk zicht te krijgen op:
Hoeveel manuren heb je nodig om de resultaten die terugkomen te bekijken en
te beoordelen?
Vervolgens moet de informatie bij de juiste persoon in de organisatie terecht
komt. Hoe verloopt dat proces?
Het beeldmateriaal moet op een juiste manier opgeslagen worden, bijvoorbeeld
in combinatie met de bevindingen. Is een dossiersysteem een goede aanpak?
Men moet modellen definiëren en mogelijk bijtrainen om de
herkenningskwaliteit te verbeteren. Dit vraagt om opleiding en training van de
medewerkers. Kortom, dit is een belangrijk aspect om tijdig in beeld te krijgen bij het realiseren van dergelijke diensten. Dit kan bijvoorbeeld bereikt worden door in een pilotfase enthousiaste professionals mee te laten testen.
4.3.2 Samenwerking
Voor de levering van deze dienst moet de samenwerking met een aantal mogelijke partijen onderzocht worden. De belangrijkste partij is Google als eigenaar van YouTube. Er zijn een aantal onderzoeksvragen (voornamelijk 1.1 en 3.1) die afhankelijk zijn van Google. Mogelijk kunnen deze relatief makkelijk worden ingevuld op basis van een goede samenwerking. Daarbij is het belangrijk
41 MosaicUI: Interactive media navigation using grid-based video. Arjen Veenhuizen, Ray van
Brandenburg, Omar Niamut. TNO, Delft, The Netherlands, EuroITV2012.
TNO-rapport | 41 / 55
alternatieve modellen niet uit te sluiten, waardoor bijvoorbeeld een stuk rekenkracht bij Google plaats kan vinden.
Naast deze voordelen is het ook van belang dat veiligheidsdiensten deze
oplossingen op een veilige manier gebruiken. Momenteel worden dergelijke
diensten niet geleverd door Google. Daarnaast is het logisch dat in het kader van
politieonderzoek gevoelige informatie niet naar de servers van een derde partij
verstuurd worden. Het opzetten van een overheidsservice ligt dus voor de hand.
Maar ook met Google wordt niet per definitie uitgesloten.
4.3.3 Infrastructuur
Uitgaande van de voorgestelde architectuur wordt de infrastructuur
gedimensioneerd. Deze infrastructuur kan worden gespecificeerd zoals Tabel 9 laat
zien. Deze specificatie wordt vervolgens toegelicht.
Tabel 9. Specificatie van de benodigde infrastructuur voor de dienst “YouTube Scannen”
Zoekvragen trainen YouTube scannen
Rekenkracht (cores, rekenunits) 2 180
Opslag (TB, terrabytes) ~0 9
Bandbreedte (Mbps, megabit per
seconde)
~0 900
Rekenkracht
Om de modellen te trainen moet een analist een aantal logo’s of voorbeeld
afbeeldingen aanbieden met de beeldmerken die herkend moeten worden. In
vergelijking met het proces dat daadwerkelijk YouTube video’s analyseert, vereist
dit een beperkte hoeveelheid rekenkracht. Op basis van 2 cores moet het mogelijk
zijn deze modellen te leren. Opslag en bandbreedte is verwaarloosbaar en wordt
daarom ongeveer op 0 geschat.
Snelle test:
Er wordt 72 uur video materiaal per minuut op YouTube geplaatst, met een
gemiddelde lengte van 4 minuten (240 seconden) per video. Dit betekent 1080
nieuwe video’s per minuut.
Analyse van 1 frame uit elke video kost 2 seconde per frame (downloaden,
analyse en conclusie) op 1 core.
Voor 1080 video’s per minuut is dit 2160 seconden rekentijd per minuut.
36 parallelle cores zijn nodig om de eerste berekening uit te voeren.
Precieze test:
Aan de hand van de analyse van één representatief frame wordt aangenomen
dat 90% van de video’s worden aangemerkt als niet relevant. Dit betekent dat
10% van de video’s per minuut in aanmerking komt voor diepte analyse. (108
video’s van 240 seconde per video)
Schatting: Downloaden van een video gaat 10x sneller dan afspelen. 240/10 =
24 seconden voor downloaden van één video.
Gegeven: Extractie van een shot gaat 10x sneller dan afspelen. 240/10 = 24
seconden voor extractie van één video.
Schatting: Een shot duurt 10 seconden. 240/10 = 24 shots per video.
TNO-rapport | 42 / 55
Gegeven: Analyse + geometrische test, kost 1 s per shot. 24 (shots) * 1