Appendice 3

Metodi statistici

Inizio Pagina

3.1 - Analisi delle relazioni tra variabili

Finalità conoscitiva
Lo studio statistico della relazione tra variabili ha lo scopo di stabilire se tra queste vi sia un qualche tipo di relazione statistica; in altre parole sintetizzare il legame presente tra due o più variabili.
Il punto di partenza di questa analisi sono, quindi, le matrici doppie (o multiple) dei dati.
L'analisi delle relazioni tra variabili permette di stabilire la forza della relazione tra variabili, individuando quelle per cui il grado di relazione è più marcato e quelle per cui la relazione tende a non essere presente.
Questo approccio analitico permette, dunque, di esplorare le relazioni tra caratteri per avere uno sguardo di insieme delle variabili oggetto d'analisi, nonché verificare ipotesi teoriche dei ricercatori.
Principali definizioni
In generale si definiscono indipendenti due variabili per le quali al variare dell'una non si riscontra un cambiamento nelle distribuzioni relative parziali dell'altra; definiamo, invece, dipendenza il grado di relazione tra due variabili in senso assoluto. Con il termine dipendenza si intende, dunque, una relazione tra due variabili per cui a ciascun valore della prima corrisponda con una certa regolarità un valore della seconda.
Più genericamente, quindi, si parla di analisi della dipendenza quando si studiano le connessioni tra più variabili, anche di natura diversa.
La relazione tra variabili si definisce in funzione della natura delle variabili stesse; vengono, quindi, introdotti degli indici per misurare il grado della dipendenza tra due variabili.
Per utilizzare la più corretta dicitura, in statistica, si parla di correlazione per definire la strettezza del legame tra variabili di natura quantitativa (variabili i cui valori numerici, discreti o continui, esprimono la misura dell'intensità di un fenomeno) con relazione simmetrica; solitamente si definisce correlazione diretta o positiva quando la variazione di una variabile in un certo verso comporta che anche l'altra si modifichi nello stesso verso; inoltre quando le variabili che vengono poste in relazione sono due, la correlazione viene chiamata semplice.
Spesso, in caso le variabili quantitative abbiano relazione asimmetrica, si parla di regressione di una variabile sull'altra.
Differente il legame, invece, tra variabili di natura qualitativa (variabili non numeriche le cui modalità sono espresse da attributi): le variabili di quest'ultimo tipo si suddividono a loro volta in nominali (variabili riclassificate in categorie sconnesse) e ordinali (variabili le cui modalità esprimono la misura di una relazione d'ordine).
Nel primo caso (variabili nominali) si introduce il concetto di associazione, mentre nel secondo (variabili ordinali) quello di cograduazione.
Strumenti di misurazione del grado di correlazione
Come già detto, in statistica, l'intensità della dipendenza fra due variabili viene espressa mediante i cosiddetti indici di dipendenza. La scelta degli indici, tra i numerosi disponibili, dipende di volta in volta dalla natura dei caratteri considerati, e più nello specifico dalla scala di misura in cui sono espressi e dall'aspetto della relazione che interessa misurare.
Le principali categorie logiche in cui questi indici vengono ordinati sono:
  • Indici di dipendenza in distribuzione o in senso assoluto: nel caso di variabili distribuite su scale di qualunque tipo (ad esempio, il chi-quadrato e l'indice quadratico di contingenza);
  • Indici di dipendenza in media: nel caso almeno la variabile assunta come dipendente sia di natura quantitativa (ad esempio, il rapporto di correlazione);
  • Indici di dipendenza in media di tipo lineare: nel caso entrambi i caratteri siano di natura quantitativa (ad esempio, il coefficiente di correlazione, il coefficiente di regressione e l'indice di determinazione lineare);
  • Indici di cograduazione: nel caso almeno una delle due variabili sia su scala ordinale (ad esempio, l'indice di Sperman o il Gamma di Goodman & Kruskal).
Si sottolinea che due variabili indipendenti hanno indici di dipendenza nulli, mentre un valore dell'indice pari a zero non implica automaticamente che le due variabili oggetto di studio siano indipendenti.
Indici di correlazione utilizzati
Nel nostro caso, per effettuare l'analisi delle relazioni tra variabili, si sono utilizzati diversi indici statistici: l'indice Gamma di Goodman & Kruskal per le variabili qualitative di tipo ordinale (ad esempio, quelle relative al grado di soddisfazione) e il coefficiente di correlazione di Pearson per quelle di natura quantitativa.
Il coefficiente Gamma di Goodman & Kruskal si usa, solitamente, quando si hanno due variabili su scala ordinale, relazione d'ordine simmetrica e in presenza di numerosi ranghi ripetuti; il valore assunto varia da -1, perfetta cograduazione negativa, a +1, perfetta cograduazione positiva; 0 rappresenta, invece, l'assenza di cograduazione.
Il coefficiente di correlazione di Pearson (o di Bravais-Pearson) si utilizza principalmente quando si suppone una relazione simmetrica tra due variabili di natura quantitativa; il range di variazione dell'indice è l'intervallo tra -1 (totale correlazione negativa) e +1 (totale correlazione positiva). Il valore 0 rappresenta l'assenza di correlazione tra le due variabili.
Inizio Pagina

3.2 - Analisi fattoriale

Finalità conoscitiva
L'analisi fattoriale è una tecnica di analisi statistica multivariata di tipo esplorativo, o di verifica di ipotesi, che si utilizza per studiare le relazioni presenti in un paniere di variabili quantitative, identificandone legami e dipendenza ai fini di una più specifica comprensione dei dati; il punto di partenza di quest'analisi sono la matrice originaria dei dati e la matrice delle correlazioni. (Nota 1)
Il concetto alla base di questo approccio analitico permette, quindi, di ottenere una riduzione della complessità del fenomeno che si intende analizzare.
L'obiettivo proposto è di determinare un numero di fattori "latenti" più ristretto e riassuntivo rispetto al numero di variabili di partenza: tramite una specifica procedura si raggruppano le K variabili in H blocchi, denominati appunto fattori, combinazioni lineari delle K variabili.
L'ipotesi alla base dell'analisi è che le distribuzioni delle variabili di partenza siano dipendenti tra loro, ovvero abbiano una parte di variabilità comune, sintetizzabile tramite i predetti fattori.
Procedura di analisi
L'analisi aggrega automaticamente le variabili di partenza in fattori, tramite una combinazione lineare, associando ad ogni variabile un peso denominato "peso fattoriale"; questi pesi rappresentano quanta importanza ha ogni singola variabile all'interno di quel fattore.
La quota di variabilità dei dati comune per un fattore, denominata varianza spiegata, viene calcolata a partire dagli autovalori (valori numerici calcolati a partire dalla matrice di covarianza (Nota 2)).
Il software utilizzato (SAS) calcola in automatico tanti fattori (e rispettivi pesi fattoriali) quante sono le variabili di partenza; si può così calcolare la frazione di variabilità totale dei dati spiegata dall'aggiunta nell'analisi di un ulteriore fattore, cumulando per ognuno di questi la frazione di varianza totale spiegata. L'analisi si arresta quando la percentuale di varianza spiegata, cumulata per i fattori, risulta sufficientemente elevata, ovvero quando il contributo alla varianza spiegata dato dall'aggiunta di un ulteriore fattore risulta non significativo; il numero di fattori deve, inoltre, risultare adeguato dal punto di vista della verifica delle ipotesi da parte dei ricercatori.
L'analisi fattoriale per la soddisfazione dei diplomati per l'esperienza scolastica a tre anni dal diploma
L'output dell'analisi fattoriale per la soddisfazione dei diplomati per l'esperienza scolastica, a tre anni dal diploma, restituisce gli autovalori, nonché la percentuale di varianza spiegata, per ciascun fattore.
Nel nostro caso, trattandosi di quattro variabili di partenza, i fattori calcolati in automatico sono a loro volta quattro. La significatività degli autovalori, chiaramente, diminuisce all'aumentare del numero dei fattori, così come diminuisce la frazione di varianza spiegata associata all'aggiunta di un fattore.
La varianza spiegata associata al primo fattore è già pari al 50,45% della variabilità totale; se si volesse minimizzare il numero di fattori da considerare a livello teorico, quindi, la scelta ottimale sarebbe quella di considerare tutte e quattro le variabili relative alla soddisfazione per l'esperienza scolastica come un unico fattore. Non accontentandosi però del 50% di varianza spiegata, e poiché l'analisi esplorativa delle correlazioni definiva la quarta variabile (soddisfazione per le strutture scolastiche) concettualmente differente dalle tre precedenti, si sceglie di forzare l'analisi inserendo un secondo fattore; chiaramente questo si presenta meno significativo del precedente (autovalore pari a 0,89), mentre si osserva che la varianza spiegata riscontra un incremento del 22%, salendo ad una spiegazione complessiva cumulata pari a quasi il 73% circa di varianza totale.

Autovalori e varianza spiegata per i diversi modelli sulla soddisfazione per l'esperienza scolastica dei diplomati del 2004 dichiarata nel 2007 per numero di fattori presenti nel modello

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
Successivamente si valuta l'influenza di ciascuna delle quattro variabili sulla soddisfazione nella composizione dei primi due fattori: nella costruzione del primo non viene completamente esclusa nessuna delle quattro variabili, pur mostrando una presenza della quarta variabile, soddisfazione per le strutture scolastiche, marginale (peso fattoriale pari a 0,44) rispetto alle altre tre (rispettivamente pesi pari a 0,79, 0,84 e 0,70). L'ultima variabile, invece, è l'unica davvero significativa nella costruzione del secondo fattore (peso 0,89), mentre le prime tre hanno un'influenza del tutto limitata e negativa.

Pesi fattoriali e quadrato degli stessi per ogni variabile sulla soddisfazione per l'esperienza scolastica dei diplomati del 2004 dichiarata nel 2007

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
Questi dati mettono in luce come, forzando l'analisi a due fattori, si veda la differenza tra le prime tre variabili e la quarta; viene così sintetizzata l'analisi in due fattori differenti: il primo più relativo al processo scolastico, mentre il secondo incentrato sulle strutture scolastiche.
La costruzione dell'indicatore sintetico a partire dall'analisi fattoriale
Nella costruzione dell'indicatore sintetico della soddisfazione per l'esperienza scolastica a tre anni di distanza dal conseguimento del diploma (I) si sceglie un modello del tipo: I = a1x1 + a2x2+ a3x3 + a4x4, dove I corrisponde al valore finale dell'indicatore sintetico di soddisfazione per l'esperienza scolastica e a1, a2, a3 e a4 sono, rispettivamente, i pesi finali associati alle variabili x1, x2, x3 e x4.
I singoli pesi finali vengono calcolati secondo la procedura a = b1F1 + b2F2, dove b1 e b2 rappresentano rispettivamente i pesi associati, per ogni variabile al primo e secondo fattore, mentre F1 e F2 i rispettivi contributi alla varianza spiegata dati dai due fattori, pari a 0,69 e 0,31. (Nota 3) Come coefficienti del modello, quindi, si sono utilizzati i pesi finali, ottenuti a partire dai pesi associati alle variabili e dai rispettivi contributi dei due fattori alla spiegazione di variabilità: il peso associato ad una variabile, per un determinato fattore, corrisponde al quadrato del peso fattoriale per quella variabile diviso per l'autovalore relativo a quel fattore.
Ad esempio, per calcolare il peso associato alla prima variabile (soddisfazione per il rapporto con gli insegnanti) rispetto il primo fattore si è diviso il quadrato del peso fattoriale (0,6295) per l'autovalore relativo al primo fattore (2,0179); il risultato (0,312) mostra come il 31,2% del primo fattore sia costituito dalla prima variabile.

Pesi da associare ad ogni variabile sulla soddisfazione per l'esperienza scolastica dei diplomati del 2004 dichiarata nel 2007

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
L'analisi fattoriale per la soddisfazione dei diplomati lavoratori per l'esperienza lavorativa a tre anni dal diploma
L'output dell'analisi fattoriale per la soddisfazione dei diplomati per l'esperienza lavorativa, a tre anni dal diploma, restituisce gli autovalori (valori numerici calcolati a partire dalla matrice di covarianza (Nota 4)), nonché la percentuale di varianza spiegata, per ciascun fattore.
Nel nostro caso i fattori, disponendo di sei variabili di partenza, sono a loro volta sei.
La significatività degli autovalori, chiaramente, diminuisce all'aumentare del numero dei fattori, così come diminuisce la frazione di varianza spiegata associata all'aggiunta di un fattore.
La varianza spiegata associata al primo fattore è, in questo caso, pari al 46,70% della variabilità totale; la scelta di un solo fattore, per sintetizzare le sei variabili relative alla soddisfazione per l'esperienza lavorativa, porta, quindi, ad una spiegazione di variabilità totale inferiore al 50% e lontana dalla conferma delle ipotesi teoriche fatte sulla differente natura delle sei variabili.
Al fine di aumentare la quota di varianza spiegata, e poiché l'analisi esplorativa delle dipendenze aveva mostrato come la sesta variabile (soddisfazione per l'utilizzo delle conoscenze acquisite nella scuola superiore) fosse concettualmente differente dalle precedenti, si è scelto di forzare l'analisi inserendo un secondo e un terzo fattore; la significatività degli autovalori decresce dal primo (autovalore pari a 2,80) al terzo (0,74), mentre si osserva che, cumulando, la varianza spiegata riscontra un incremento del 26%, salendo al 73% circa di varianza spiegata totale.

Autovalori e varianza spiegata per i diversi modelli sulla soddisfazione per l'esperienza lavorativa dei diplomati del 2004 dichiarata nel 2007 per numero di fattori presenti nel modello

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
In seguito si valuta l'influenza di ciascuna delle sei variabili sulla soddisfazione per l'esperienza lavorativa nella composizione dei tre fattori: nella costruzione del primo fattore spiccano le prime quattro variabili relative al posto di lavoro (rispettivamente soddisfazione per trattamento economico, possibilità di carriera, mansioni svolte e stabilità e sicurezza), pur non escludendo completamente nemmeno le ultime due.
Il secondo fattore si fonda unicamente sulla sesta variabile, soddisfazione rispetto l'utilizzo delle conoscenze acquisite nella scuola superiore (peso fattoriale pari a 0,84).
Il terzo fattore, invece, è costituito principalmente dalle prime due e ancor più dalla quinta variabile (rispettivamente pesi pari a -0,40, -0,44 e 0,50) e si mostra intrinsecamente legato al primo; come visto nel relativo paragrafo, infatti, la distinzione netta è tra le prime cinque e la sesta variabile.

Pesi fattoriali e quadrato degli stessi per ogni variabile sulla soddisfazione per l'esperienza lavorativa dei diplomati del 2004 dichiarata nel 2007

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
I dati che escono da queste elaborazioni evidenziano come il primo e il terzo fattore per l'analisi sulla soddisfazione per l'esperienza lavorativa sono difficilmente sintetizzabili in due fattori mutualmente distinti; le variabili comuni sono più d'una e concettualmente la definizione dei due appare ardua. Al contrario il secondo fattore è a sé stante.
La costruzione dell'indicatore sintetico a partire dall'analisi fattoriale
Nella costruzione dell'indicatore sintetico della soddisfazione per l'esperienza lavorativa a tre anni di distanza dal conseguimento del diploma (IL) è stato utilizzato un modello del tipo: IL = a1x1 + a2x2+ a3x3 + a4x4, +a5x5 + a6x6, dove IL corrisponde al valore finale dell'indicatore sintetico di soddisfazione per l'esperienza lavorativa e a1, a2, a3, a4 ,a5 e a6 sono, rispettivamente, i pesi finali associati alle variabili x1, x2, x3 e x4, x5 e x6.
I singoli pesi finali vengono calcolati secondo la procedura a = b1F1 + b2F2 + b3F3, dove b1, b2 e b3 rappresentano rispettivamente i pesi associati, per ogni variabile, al primo, al secondo e al terzo fattore, mentre F1, F2 e F3 sono l'apporto che ogni fattore dà alla varianza spiegata (rispettivamente pari a 0,64, 0,19 e 0,17). (Nota 5)
Come coefficienti del modello, dunque, si sono utilizzati i pesi finali associati alle variabili, ottenuti dalla combinazione dei pesi associati alle variabili e dai contributi dei fattori alla varianza spiegata: il peso associato ad una variabile, per un determinato fattore, corrisponde al quadrato del peso fattoriale di quella variabile diviso per l'autovalore relativo a quel fattore.
Ad esempio, per calcolare il peso associato alla prima variabile (soddisfazione del trattamento economico) rispetto il primo fattore, si è diviso il quadrato del peso fattoriale (0,5239) per l'autovalore relativo al primo fattore (2,8017); il risultato (0,187) mostra come il 18,7% del primo fattore sia costituito dalla prima variabile.
Combinando i pesi delle variabili con i pesi dei fattori si perviene al peso complessivo da associare alle singole variabili; ad esempio per la prima variabile: 0,64 x 0,187 + 0,19 x 0,001 + 0,17 x 0,222 = 0,157.

Pesi da associare ad ogni variabile sulla soddisfazione per l'esperienza lavorativa dei diplomati del 2004 dichiarata nel 2007

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
L'analisi fattoriale per la costruzione dell'indicatore di status sociale
L'analisi fattoriale è stata utilizzata anche per la costruzione di un indicatore sintetico di background familiare. Tuttavia, è opportuno sottolineare alcune differenze rispetto alla costruzione degli indicatori sulla soddisfazione dei diplomati, presentati nei paragrafi precedenti.
Relativamente alla soddisfazione per l'esperienza scolastica e per quella lavorativa, l'analisi fattoriale è stata applicata al fine di calcolare i pesi da assegnare alle singole variabili: il grado di soddisfazione finale è stato ottenuto come combinazione lineare di questi pesi con le percentuali di diplomati che si sono dichiarati soddisfatti dei vari aspetti presi in considerazione.
Per quanto riguarda, invece, lo status sociale, l'analisi fattoriale è stata applicata al fine di calcolare per ogni studente un punteggio che rappresentasse il suo background, a partire da alcune variabili di contesto familiare. In particolare, è stato assegnato un punteggio crescente da 1 a 4 per il titolo di studio e un punteggio sempre da 1 a 4 per la condizione occupazionale dei genitori: per il titolo di studio, 1 equivale a nessun titolo o licenza elementare, 2 a licenza media, 3 a diploma di scuola superiore e 4 alla laurea o titolo superiore. Per la condizione occupazionale, 1 corrisponde a operaio, lavoratore senza specifica qualificazione oppure inattivo, 2 a lavoratore in proprio, coadiuvante nell'azienda familiare, socio di cooperativa, impiegato esecutivo, 3 a quadro/funzionario, impiegato ad alta/media qualificazione e 4 a imprenditore, libero professionista, dirigente. Il punteggio relativo al titolo di studio dei genitori è stato elevato al quadrato: da un lato, infatti, si ritiene che questa variabile rappresenti il background culturale di un ragazzo e, per il suo percorso scolastico e formativo, abbia un'influenza maggiore rispetto alla condizione lavorativa, associata invece al background economico. Dall'altra parte, è stato ipotizzato che la distanza fra le diverse modalità non sia sempre costante: il passaggio da licenza elementare a licenza media è probabilmente meno forte rispetto al passaggio da licenza media a diploma di scuola superiore, il quale è a sua volta meno forte del passaggio fra diploma e laurea. Elevando la variabile al quadrato è stata fatta quindi un'ipotesi molto forte, ossia che la distanza aumenti progressivamente in modo esponenziale (i punteggi assegnati sono, infatti, 1 per la licenza elementare, 4 per la licenza media, 9 per il diploma e 16 per la laurea).
Applicando a queste variabili l'analisi fattoriale si ottengono gli autovalori (valori numerici calcolati a partire dalla matrice di covarianza (Nota 6), nonché la percentuale di varianza spiegata da ogni fattore.
I possibili fattori estratti dall'analisi risultano quattro, essendo quattro le variabili di partenza.
All'aumentare del numero di fattori introdotti diminuisce la significatività degli autovalori, mentre aumenta la percentuale di varianza spiegata.
Il primo fattore mostra una quota di spiegazione della varianza pari al 60% della varianza totale; si è, dunque, valutato che questa quota fosse sufficiente per considerare nell'analisi un unico fattore.

Autovalori e varianza spiegata dal modello di analisi fattoriale applicato alle variabili di contesto familiare dei diplomati del 2004 intervistati nel 2007

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
Dal modello di analisi ad un fattore si sono ottenuti i pesi e i coefficienti fattoriali associati alle quattro variabili, come riportato nella tabella sottostante. In particolare, i pesi fattoriali rappresentano quei valori numerici che legano il fattore alle singole variabili: più alto sarà il valore di questo peso, più importante sarà la variabile nello spiegare il significato del fattore. I coefficienti fattoriali, invece, rappresentano quei valori numerici che legano le variabili al fattore: in pratica, il fattore F viene visto come una combinazione lineare delle variabili inserite nell'analisi moltiplicate per questi coefficienti (F = c1x1 + c2x2 + c3x3+ c4x4 ; con x1, ..., x4 variabili e c1 , ..., c4 coefficienti fattoriali).

Pesi e coefficienti fattoriali risultanti dal modello di analisi fattoriale applicato alle variabili di contesto familiare dei diplomati del 2004 intervistati nel 2007

(*) Peso che lega il fattore con la singola variabile.
(**) Coefficiente che lega le variabili osservate al fattore.

Fonte: Elaborazioni dell'Ufficio di Statistica della Regione del Veneto su dati Istat
Mediante i coefficienti fattoriali, è stato possibile calcolare dei punteggi fattoriali, ossia dei valori numerici che quantificano quanto le singole unità influiscono sul fattore. In altre parole, il punteggio ottenuto dal singolo diplomato è ottenuto come combinazione lineare dei valori assunti dalle quattro variabili ciascuna pesata con il proprio coefficiente fattoriale.
Per facilità di interpretazione i punteggi fattoriali sono stati poi riportati su una scala da 0 a 100, tramite la formula:

I* = (I - Min) / (Max - Min) x 100

dove:

I è l'indicatore associato ad ogni unità
Max è il valore massimo assunto dall'indicatore
Min è il valore minimo assunto dall'indicatore
I* è il risultato della standardizzazione

ottenendo così l'indicatore finale di background familiare.