Kuluttajatutkimuskeskus
Kaikukatu 3, PL 5
00531 Helsinki
Tilaukset 09-77267702
fax 09-77267715
Tässä luvussa käydään läpi muutama analyysimenetelmä, joiden avulla on mahdollista mallintaa verkoston rakennetta. Näistä menetelmistä regressioanalyysi ja log-lineaarinen analyysi ovat tärkeimpiä. Myös korrelaatiokertoimien laskeminen verkostoaineistosta on joskus hyödyllistä. Näitä mallintamistekniikoita käsitellään ainoastaan yleisellä tasolla, jolloin tarkoituksena on antaa lukijalle kuva, siitä mitä niiden avulla voi tehdä. Käytännön soveltamiseen annetut tiedot eivät monessa kohtaa kuitenkaan riitä, ja jos joku haluaa näitä menetelmiä soveltaa, suosittelemme esitettyyn lähdekirjallisuuteen tutustumista.
Korrelaatioiden laskeminen ja regressioanalyysin käyttö ovat tilastollisessa analyysissä hyvin usein käytettyjä menetelmiä. Verkostoanalyysin yhteydessä korrelaatiokertoimien avulla pyritään tarkastelemaan kahden tai useamman verkoston välisiä riippuvuuksia. Regressioanalyysi pyrkii samaan tavoitteeseen, mutta siinä oletetaan lisäksi jonkinlainen kausaalinen selityssuhde tarkasteltavien verkostojen välille. Molempia analyysitapoja voidaan käyttää verkostomateriaalin yhteydessä, mutta tällöin aineiston luonne aiheuttaa muutamia verkostoanalyysille erityisiä ongelmia, jotka on otettava käytännön sovelluksissa huomioon. Näitä asioita käsitellään seuraavassa ensin ns. QAP-korrelaation ja -regression ja sen jälkeen ns. autokorrelaatiomallien yhteydessä.
QAP-menetelmä
Usein on luonnollista ajatella, että esimerkiksi jonkin verkoston toimijoiden mielipiteiden samankaltaisuudella ja näiden toimijoiden yhteyksien intensiteetillä on jonkinlainen yhteys. Voidaan olettaa, että ihmiset, joilla on samankaltaiset näkemykset monista asioista ovat keskenään useammin yhteydessä kuin eri mieltä asioista olevat ihmiset. Tällaisia riippuvuussuhteita voidaan tutkia laskemalla korrelaatiokerroin yhteysmatriisin ja mielipiteiden samankaltaisuusmatriisin välillä. Tämän korrelaation tilastollisen merkitsevyyden laskemiseen voidaan käyttää verkostoanalyysissa useimmiten ns. QAP-menetelmää (quadratic assignment procedure).
QAP-menetelmä on ei-parametrinen menetelmä korrelaatioiden ja yksinkertaisen regression laskemiseksi kahden verkoston välillä (Krackhardt 1987). Tällöin verkostojen tulee muodostua samoista toimijoista ja näin olla samankokoisia (esimerkiksi korreloivatko saman toimijajoukon rahanlainausverkosto ja ystävyysverkosto keskenään). Menetelmän ei-parametrisuus tarkoittaa sitä, se ei tee mitään alkuolettamuksia kiinnostuksen kohteena olevien muuttujien jakaumasta.
QAP-menetelmä toimii niin, että ensin kahden verkoston toisiaan vastaavien alkioiden välillä lasketaan tavallinen (Pearsonin) korrelaatiokerroin. Tämän jälkeen ongelmana on arvioida tämän korrelaation tilastollinen merkitsevyys. Tämä tapahtuu sekoittamalla alkuperäisten verkostojen rivit ja sarakkeet satunnaisesti ja laskee tämän jälkeen uudelleen näiden kahden sekoitetun verkoston korrelaatiokertoimen. Nyt voidaan verrata näitä kahta saatua korrelaatiokerrointa. Jos alkuperäisistä matriiseista saatu kerroin on tilastollisesti merkitsevä on se todennäköisesti itseisarvoltaan suurempi kuin satunnaisesti sekoitetuista matriiseista laskettu kerroin. QAP-menetelmä tekee verkostojen sekoittamisen hyvin monta kertaa (esim. 500 kertaa on oletusarvo UCINET-ohjelmassa) ja vertaa joka kerta saatua uutta kerrointa alkuperäiseen korrelaatioon. Näiden tietojen avulla voidaan arvioida, onko alkuperäinen korrelaatiokerroin tilastollisesti merkitsevä. Jos alle 5 prosenttia satunnaisista korrelaatiokertoimista oli pienempiä kuin alkuperäinen kerroin, voidaan päätellä, että alkuperäinen korrelaatiokerroin on tilastollisesti merkitsevä 5 prosentin riskitasolla.
Jos halutaan tarkastella, miten toisen verkoston ominaisuudet vaikuttavan johonkin toiseen samankokoiseen verkostoon, voidaan verkostojen välille laskea regressiokerroin, jonka tilastollisen merkitsevyyden laskeminen QAP-menetelmällä noudattaa aivan samanlaista periaatetta kuin korrelaatiokertoimien tilastollista merkitsevyyttä arvioitaessa. Hyviä esimerkkejä QAP-menetelmän käytöstä löytyy Mizruchin (1992) ja Uusikylän (1995) tutkimuksista. Yleisesti tarkastellen QAP-menetelmän etuna on se, että sen avulla pystytään käsittelemään intervalliasteikon mittaustason muuttujia, joten analyysin ei tarvitse rajoittua binäärimatriiseihin. Ehkä suurempana ongelmana on, että kaikki QAP-menetelmän kaikki tekniset ominaisuudet eivät ole täysin tunnettuja (Tutzauer 1993, 105-106; Krackhardt 1993).
Autokorrelaatiomallit
Autokorrelaatiomallien tarkoituksena on tutkia, miten verkoston rakenne vaikuttaa verkoston toimijoiden näkemyksiin, mielipiteisiin tai toimintaan. Autokorrelaatiomalleja kutsutaan joskus myös "verkostovaikutusmalleiksi" (network effect models), mikä ehkä antaakin paremman kuvan niiden käyttötarkoituksesta. Autokorrelaationimitys on peräisin eräiden regressiomallien erityisominaisuudesta - siitä, että mallin havainnot eivät ole toisistaan riippumattomia, vaan toisilleen "läheiset" havainnot vaikuttavat toisiinsa. Juuri tämä ominaisuus on mielenkiinnon kohteena autokorrelaatiomalleissa. Löytyykö verkostosta tällaista "sopeutumista" läheisten toimijoiden vaikutukseen? Autokorrelaatiomalleja voidaan pitää eräänlaisena yleistyksenä ja laajennuksena edellä mainittuun tapaan tehdä regressioanalyysia kahden verkoston tapauksessa.
Eräs sovellusalue, johon autokorrelaatiomallit soveltuvat hyvin, ovat tutkimukset innovaatioiden leviämisestä. Esimerkkinä tällaisesta tutkimuksesta on Burtin (1987) tutkimus siitä, miten uuden lääkkeen käyttö levisi lääkäreiden keskuudessa neljässä pienehkössä keski-lännen kaupungissa USA:ssa. Burt halusi tutkia, onko lääkkeen käyttöönoton leviämisessä lääkäreiden väliset suorat yhteydet vai lääkäreiden välinen kilpailutilanne merkittävin tekijä. Toinen hyvä esimerkki autokorrelaatiomallien käytöstä on Ibarran ja Andrewsin (1993) tutkimus siitä, miten organisaation sisäiset kontaktit vaikuttavat näkemyksiin organisaation luonteesta ja sen toiminnasta. Tutkimuksen kohteena olivat yhden mainostoimiston työntekijät. Tutkimuksen lopputuloksena oli, että asemat työpaikkayhteisön verkostorakenteessa vaikuttivat työntekijöiden näkemyksiin omasta organisaatiostaan.
Käytännössä autokorrelaatiomallit muistuttavat hyvin paljon "normaalia" regressio- analyysia. Mallin perusta voidaan esittää muodossa:

missä Y on selitettävä muuttuja (esimerkiksi mielipiteet jostain asiasta tai jonkun uuden innovaation käyttöönotto). W on painomatriisi, joka kuvaa toimijan verkostoasemaa (esimerkiksi 1 jos toimijoilla on yhteys ja 0 jos yhteyttä ei ole)18. Rho on estimoitava parametri, joka kertoo, kuinka paljon "läheisillä" on vaikutusta mielipiteisiin. X kuvaa muita vaikuttavia tekijöitä (esim. sukupuoli, ikä jne.), jotka voidaan ottaa mukaan analyysiin aivan samalla tavalla kuin "normaalissakin" regressioanalyysissa. Mikä erottaa autokorrelaatiomallit "normaaleista" regressiomalleista on, että selitettävä muuttuja on yhtälön molemmilla puolilla. Tämä seikka tarkoittaa juuri sitä, että selitettävän muuttujan havainnot eivät ole toisistaan riippumattomia.
Edellä mainitussa yhtälössä rho on keskeisin mielenkiinnon kohteena oleva parametri. Se osoittaa verkostovaikutuksen suuruuden. Jos rho positiivinen ja tilastollisesti merkitsevä, voidaan todeta, että verkostovaikutus on aineistossa olemassa. Jos rho ei tilastollisesti merkitsevä, tätä vaikutusta ei ole. Tulkinta on siis samanlainen kuin muidenkin regressioanalyysin parametrien. Käytännön ongelman kuitenkin tuottaa se, että autokorrelaatiomallien parametrien arvoja ei voida estimoida tavallisella pienimmän neliösumman menetelmällä, koska riippuva muuttuja on yhtälön molemmilla puolilla. Tällöin täytyy käyttää muita estimointi- menetelmiä. Eräs tällainen menetelmä on ns. suurimman uskottavuuden (maximum likelihood) menetelmä, joka on toteutettu monissa tilasto-ohjelmistoissa. Autokorrelaatiomallien käytännön estimoinnin ongelmista ja yleisesti käytetyistä ratkaisuista on hyvä selvitys Marsdenin ja Friedkinin (1994) artikkelissa.
18Verkostoasemaa kuvaavan W:n ei tarvitse olla toimijoiden välinen suorien yhteyksien matriisi, vaikka useimmiten se onkin luonnollisimmalta tuntuva vaihtoehto. Esimerkiksi Burt (1987) käyttää W:nä toimijoiden välistä rakenteellista yhtäläisyyttä kuvaavaa matriisia, jota voidaan pitää toimijoiden välisen kilpailutilanteen mittarina.
Verkostoaineiston log-lineaarinen analyysi on yksi nopeimmin kehittyviä verkostoanalyysin alueita. Log-lineaaristen mallien avulla on mm. mahdollista tutkia verkoston toimijoiden alttiutta ottaa muihin yhteyksiä, vastaanottaa näitä yhteyksiä ja sitä, kuinka molemminpuolisia nämä yhteydet ovat. Log-lineaarisessa analyysissa on myös se erityisesti hyvä puoli, että mallien sopivuutta havaittuun aineistoon voidaan tarkastella tilastollisten kriteerien avulla. Kuten aiemmin on käynyt ilmi, tämä ei ole mahdollista useimpien verkostoanalyysitekniikoiden kohdalla. Tässä yhteydessä ei käydä log-lineaarisen mallintamisen perusteisiin kovinkaan syvällisesti. Alue on niin monipuolinen ja usein myös monimutkainen, että kiinnostuneita kehotetaan tutustumaan alan kirjallisuuteen. Esimerkiksi Wassermanin ja Faustin (1994) kirjassa on käyty verkostoaineiston log-lineaarista mallintamista hyvin ja perusteellisesti läpi. Yleisenä johdatuksen log-lineaariseen analyysiin voi suositella Fingletonin (1981), Agrestin (1984) tai Gilbertin (1993) teosta. Log-lineaarisia malleja voidaan soveltaa sekä suuntaamattomiin että suunnattuihin verkostoaineistoihin. Useimmiten mallintaminen on kuitenkin järkevämpää jälkimmäisessä tapauksessa, koska silloin mallista saadaan useampia helposti tulkittavissa olevia parametreja. Mallien soveltaminen aineistoon on mahdollista UCINET-verkostoanalyysiohjelmalla tai siinä voidaan käyttää "tavallisia" tilastoohjelmistoja19. Yleensä suurilla "yleisohjelmistoilla" on mahdollista tehdä monimutkaisempia analyysejä, koska niissä on yleensä suurempi määrä vaihtoehtoja log-lineaarisen analyysin teossa. Jos analyysi halutaan tehdä muulla kuin erityisesti verkostoanalyysiin soveltuvalla ohjelmalla täytyy verkostoaineiston koodausmuotoa hiukan muokata tavanomaisesta. Wassermanin ja Faustin (1994) teos antaa varsin hyvät käytännön ohjeet siihen, miten tämä muokkaus tehdään ja siihen, miten varsinaiset ajot eri ohjelmistoilla tehdään. Jotta kuva siitä, miten log-lineaarista mallintamista voi käyttää hyväksi verkostoanalyysissä tulisi selvemmäksi, esitetään seuraava esimerkki. Kuviossa 9.1 on esitetty pienen koululuokan verkosto, jossa kuvataan sitä, miten oppilaat auttavat toisiaan kotitehtävien teossa. Log-lineaarisen analyysin tulokset ovat kuvion viereisessä taulukossa. Malli tuotti neljänlaisia parametreja. Näistä ensimmäisenä taulukossa on ns. suosioparametrit (popularity parameters), jotka kuvaavat sitä, kuinka suosittuja valinnan kohteita verkoston toimijat ovat. Esimerkissä suurimman suosioparametrin arvon saa Tuulia, koska häneen kohdistuu eniten valintoja eli häntä autetaan eniten kotitehtävien teossa. Sen sijaan Lauran suosioparametri on miinus ääretön, koska hän ei tarvitse (tai ei saa) apua keneltäkään. Taulukon kolmannen sarakkeen ekspansioparametrit (expansiveness parameters) kuvaavat sitä, kuinka verkoston toimijat valitsevat muita toimijoita. Esimerkissä suurimman arvon saa Laura, koska hän auttaa muita, mutta hän ei itse tarvitse apua. Pienimmän ekspansioparametrin arvon saa Tuulia, joka vastaanottaa suhteessa apua paljon enemmän kuin hän itse antaa. Suosio- ja ekspansioparametrien lisäksi malli antaa kaksi muuta parametria, jotka kuvaavat koko verkoston rakennetta. Näistä theta-parametrillä ei useinkaan ole teoreettisesti kiinnostavaa tulkintaa. Se kuvaa eräänlaista verkoston yleistä lähetettyjen ja saatujen suhteiden keskiarvoa. Toista koko mallia kuvastavaa parametria rho:ta voisi kutsua vastavuoroisuusparametriksi (reciprocality parameter). Se kertoo, kuinka yleisesti verkoston suhteet ovat vastavuoroisia. Esimerkkitapauksessa rho on positiivinen eli se kuvastaa sitä, että verkostossa molemminpuoliset auttamissuhteet ovat yleisempiä kuin yksipuoliset. Tämä on helppo huomata itse kuviostakin (täytyy muistaa, että tilanne, jossa kahden toimijan välillä ei ole laisinkaan yhteyttä, on myös molemminpuolinen). Kuvio 9.1. Koululuokan kotitehtävien "auttamisverkosto ja siihen sovitetun loglineaarisen mallin tulokset."
Log-lineaarisen mallin sopivuutta kyseiseen aineistoon voidaan arvioida tilastollisin menetelmin. Verkostoaineistoissa useimmiten käytetty testi on ns. likelihood ratio -testi. Edellä esitellyssä esimerkissä khi2 -testiä muistuttavan likelihood ratio -testin testisuure saa arvon G2=10,1 ja mallissa on 18 vapausastetta. Näin mallia voidaan pitää tilastollisesti hyvänä. Mallin hyvyyden testaamiseen liittyy paljon seikkoja, joita tässä ei käydä läpi. Asiasta kiinnostuneiden kannattaa tutustua Wassermanin ja Faustin (1994) teokseen, jossa testaamista käydään tarkemmin läpi. Esimerkkinä tutkimuksesta, jossa log-lineaarista analyysia on sovellettu verkostoanalyysiin voi mainita Stevensonin (1990) tutkimuksen, jossa tutkittiin erään organisaation sisäistä hierarkiaa. Tutkimuksessa testattiin kerättyyn verkostoaineistoon erilaisia hierarkiarakenteita kuvaavia malleja log-lineaarisen analyysin avulla. Vertailemalla mallien sopivuutta havaittuun aineistoon, voitiin tehdä päätelmiä organisaation todellisesta valta- ja hierarkiarakenteesta.9.2 Log-lineaarinen analyysi

| < edellinen | sisällys | seuraava > |