Page 1
Twitter verkostoanalyysi: case
#cmadfi (osa 1)
inspiraationa Bruns (2011) How long is a
tweet? Mapping dynamic conversation
networks on Twitter using Gawk and Gephi
Hypermedian jatko-opintoseminaari
Informaation visualisointi 2013
Jari Jussila @jjussila
Novi tutkimuskeskus, TTY
Page 2
Twitteristä
• Mikroblogi, jossa voi lähettää 140 merkin pituisia viestejä
(twiittejä)
– viestit ovat joko täysin julkisia (’globally public by
default’) tai yksityisiä ja vain lähettäjän hyväksymän
seuraajan nähtävissä
• Twitterin käyttäjät kehittäneet mekanismeja, joiden avulla
voidaan viestiä tehokkaammin (viestin pituus)
rajoituksista huolimatta (Halavais & Martin-Elmer, 2009)
– #hashtagit, jotka mahdollistaa etsiä ja seurata niitä twiittejä,
joissa esiintyy kyseinen #hashtagi
– @vastaukset, joiden avulla voidaan lähettää julkisia viestejä
myös niille henkilöille, joita ei itse seuraa
19.4.2013 2
Page 3
Bruns (2011) tutkimusartikkelissa
esitellään menetelmä ja prosessi,
jonka avulla voidaan
1. kerätä julkista Twitter dataa tiettyihin #hashtageihin
liittyen
2. käsitellä kyseinen data, niin että se mahdollistaa
3. analysoida ja visualisoida sellaisia verkostoja, jotka
rakentuvat Twitter maininnoista (@vastauksista)
käyttäjien välillä – ylipäätään staattisena verkostona, ja ajan myötä, tuodakseen esille
Twitter mainintojen dynaamista rakennetta
19.4.2013 3
Question ‘how long is a tweet’ comes to mean ‘how long does a tweet – or in
the present case, more precisely, an @reply – last?’
Page 4
Menetelmänä
verkostoanalyysi
• Verkostoanalyysissä tavoitteena on hahmottaa verkostojen
rakennetta ja dynamiikkaa tai esimerkiksi informaation liikettä
verkostoissa.
• Verkostoanalyysin avulla voidaan tehdä havaintoja sekä yksittäisten
toimijoiden rooleista verkostoissa että verkostojen rakenteesta ja
sen muutoksesta.
• Verkostoanalyysin perusyksiköitä ovat solmut (node, vertex, actor tai
agent) ja niiden väliset yhteydet (edge, connection tai relation)
– Case-esimerkissä solmuina ovat henkilöt (Gephi: ”Node”,
NodeXL: ”Vertices”) ja niiden välisiä yhteyksiä edustavat
henkilön mainitseminen ”@vastaukset” (Gephi: ”Edge”, NodeXL:
”Edges”)
19.4.2013 4
Lähde: Huhtamäki & Parviainen 2013
Page 5
Työkaluja Twitter verkostojen
kartoittamisen (datan kerääminen)
• Twitteristä ’helppo’ kerätä twiittejä, jotka sisältävät joko tietyn
#hashtagin tai tietyn avainsanan ilman ’#’ symbolia
• Suosittu palvelu twiittien keräämiseen on ollut Twapperkeeper
(TK) web-palvelu, nykyisin HootSuite Archives (integroitu
HootSuite dashboardiin)
• Twapperkeeperistä on myös saatavilla open source versio
GitHubista: yourTwapperkeeper (yTK), joka mahdollistaa
datan omatoimisen keräämisen
• Muita työkaluja, mitä ei artikkelissa mainittu mm.
– Twitter Archiving Google Spreadsheet:
http://mashe.hawksey.info/2012/01/twitter-archive-tagsv3/
– NodeXL (Excel lisäosa) import from Twitter Search Network:
http://nodexl.codeplex.com/
19.4.2013 5
Page 6
yourTwapperkeeperin avulla
saatava data
• text: tweetin sisältö, 140 merkkiä (tai vähemmän)
• to_user_id: tweetin vastaanottajan numeerinen ID (@vastauksille)
• from_user: tweetin lähettäjän nimi
• id: tweetin numeerinen ID
• from_user_id: tweetin lähettäjän numeerinen ID
• iso_language_code: twiitin lähettäjän kielikoodi (esim. en, de, fr, ...) (ei välttämättä twiitin kieli)
• source: työkalun nimi tai URL-osoite jota käytettiin twiittaamiseen (esim. Tweetdeck, ...)
• profile_image_url: twiitin lähettäjän profiilin URL
• geo_type: maantieteellisten kordinaattien muoto
• geo_coordinates_0: maantieteellisten kordinaattien ensimmäinen elementti
• geo_coordinates_1: maantieteellisten kordinaattien toinen elementti
• created_at: tweetin aikaleima luettavassa muodossa
• time: tweetin aikaleima numeerisessa unix muodossa
19.4.2013 6
Page 7
Artikkelissa käytetty työkalu
datan prosessointiin (Gawk)
• GNU komentorivityökalu, josta saatavilla
myös portattu Windows ja MAC versio
(Gawk, 2011).
19.4.2013 7
Page 8
Gephi – visualisointityökalu
19.4.2013 8
Gephi (https://gephi.org/) on avoimeen lähdekoodiin perustuva
verkostojen visualisointi- ja analysointiohjelma.
Page 9
Oma informaation visualisointi
(oppimis)prosessi
19.4.2013 9
TwitterNodeXL NodeXLGraphML Visuaalinen
ja kognitiivinen
prosessointi GraphMLGephi
Fyysinen ympäristö
(sosiaalinen media)
Informaation
kerääminen
Informaatio
Informaation
esikäsittely ja
muuntaminen
Visualisointi-
työkalu
Informaation
käsittely
Informaatiotarpeiden
ymmärtäminen
Mukaillen Ware 2004, lähteestä Huhtamäki 2013
Page 10
19.4.2013 10
Fyysinen ympäristö (#cmadfi twiitit
Twitter mikroblogissa)
Page 11
Informaation kerääminen (NodeXL)
19.4.2013 11
Page 12
19.4.2013 12
Informaation esikäsittely ja
muuntaminen (NodeXL GraphML)
Page 13
19.4.2013 13
Informaation käsittely Gephi
visualisointityökalun avulla
Page 14
19.4.2013 14
Gephi kuva 1:
Page 15
19.4.2013 15
Tolkun tekeminen verkostosta (In-
Degree ja Out-Degree jakaumat)
Page 16
Keskeisyysaste
• Keskeisyysaste (degree) kertoo, kuinka monta
suoraa yhteyttä toimijalla on muihin toimijoihin.
• Jos verkostoaineisto on suunnattu, kuten
#cmadfi case-esimerkin tapauksessa, voidaan
laskea erikseen solmun vientiluku (outdegree)
”lähettäjäkeskeisyys” ja solmun tuontiluku
(indegree) ”vastaanottajakeskeisyys”.
19.4.2013 16
Lähde: Jussila 2009
Page 17
Toimijan keskeisyys ja
arvostus
• Tärkeät toimijat ovat laajasti osallisia yhteyksiin
toisten toimijoiden kanssa.
• Toimijan keskeisyydessä ei ole väliä, onko
toimija lähettänyt vai vastaanottanut yhteyden.
• Arvostettuja toimija on sellainen, joka on
useampien yhteyksien vastaanottaja. Toisin
sanottuna arvostettu toimija on sellainen, jolla on
suuri tuontiluku (indegree).
19.4.2013 17
Lähde: Jussila 2009
Page 18
19.4.2013 18
Informaation käsittely: filtteröinti
esim. indegree perusteella
Page 19
19.4.2013 19
Gephi kuva 2: keskeisiä toimijoita, indegree ja outdegree > 4
Page 20
Artikkelin oppeja
• Twitter (#hashtag) informaation kerääminen
(artikkelissa yourTwapperkeeper, case-
esimerkissä NodeXL)
• Twitter informaation esikäsittely ja
muuntaminen (artikkelissa Gawk, case-
esimerkissä NodeXL)
• Twitter informaation käsittely ja visualisointi
Gephillä
– mm. kuinka twiittejä voidaan tarkastella ajan
funktiona
19.4.2013 20
Page 21
Tutkimuskysymyksiä
• Ketkä ovat keskeisempiä toimijoita
#cmadfi verkostossa?
– eroteltuna live ja online (etänä) CMAD2013
tapahtumaan osallistujien kesken
• Millaista sisältöä vaihdetaan #cmadfi
hashtagilla?
• Miten 1-10-90 sääntö toteutuu #cmadfi
verkostossa?
19.4.2013 21
Page 22
Lähteitä
• Bruns, A. (2011) How long is a tweet? Mapping dynamic conversation
networks on Twitter using Gawk and Gephi. Information, Communication &
Society.
• Halavais, Alexander, and Helen Martin-Elmer. (2009) “Back@you: Tracing the
diffusion of a conversational convention.” Paper presented at the Association of
Internet Researchers conference, Milwaukee, 10 Oct. 2009.
• Huberman, B., Romero, D., Wu, F. (2008) Social networks that matter: Twitter
under the microscope. Social Computing Laboratory, HP Labs
http://www.hpl.hp.com/research/scl/papers/twitter/
• Huhtamäki, J. 2013. Informaation visualisointi 2013: lyhyt johdanto.
https://docs.google.com/presentation/d/1EVAplXpRrew6cmOX8p5k1icrIPKdb8o
pauEXdmUmNWI/edit?usp=sharing
• Huhtamäki, J., Parviainen, O. 2013. ”Verkostoanalyysi sosiaalisen median
tutkimuksessa”. Laaksonen Salla-Maaria, Matikainen Janne & Tikka Minttu
(Toim.) Otteita verkosta - Verkon ja sosiaalisen median tutkimusmenetelmät.
Osuuskunta Vastapaino.
http://www.vastapaino.fi/vp/index.php?page=shop.product_details&flypage=$fly
page&product_id=424
• Jussila, J. 2009. Centrality and Prestige – Keskeisyys ja arvostus. Hypermedian
jatko-opintoseminaari: Sosiaalisten verkostojen tutkimusmenetelmät 2009.
http://www.slideshare.net/jjussila/keskeisyys-ja-arvostus
19.4.2013 22