Seleziona una pagina

 


Approccio alle equazioni strutturali
(Costruzione ‘pratica’ di un fenomeno sociale)

I modelli di equazioni strutturali rappresentano una delle metodologie più diffuse nell’analisi statistica multivariata, analizzandone dati comportamentali poiché adatte a studiare le relazioni reciproche che esistono tra variabili non direttamente misurabili, dette variabili latenti (fattori).

Le sue radici si riconducono agli inizi del Novecento grazie agli studi condotti da Karl Spearman sulle variabili latenti e ai lavori di altri studiosi, individuando il problema della causalità tra variabili, condotta negli studi di econometria. Altro lavoro rilevante fu quello di Sewall Wright negli anni ’30 analizzando lo studio della path analysis.

I modelli di equazioni strutturali si occupano delle variabili metriche, mentre per quelle categoriali vengono usati i modelli log-lineari. Grande contributo, oltre a quelli già descritti, risale ai primi anni Settanta grazie allo statistico-psicometrico Karl Jöreskog, che diede vita al software LISREL (Linear Structural Relationship) per stimare i coefficienti dell’analisi fattoriale, diventando uno dei metodi più usati per i modelli di equazioni strutturali considerando il problema della misurazione di variabili non direttamente osservabili, studiati nell’analisi psicometrica.

I modelli di equazioni strutturali consentono di:

  • Avere l’esigenza di ridurre la dimensione dei dati, quando l’informazione contenuta nelle relazioni reciproche si riconduce ad un insieme più piccolo, in modo che ne diventi più semplice individuare una struttura subordinata dei dati (analisi fattoriale);
  • Ritrovare la variabile latente nelle scienze sociali, per esempio, nelle variabili come l’età o il reddito, quindi misurabili. Esse possono essere affette da errori di misurazione, dovuti a errori di rilevazione o causati da difficoltà dello strumento di misurazione, diventando allora non osservabili;
  • Osservare che la variabile latente è un costrutto teorico non osservabile e non misurabile come, ad esempio, la felicità di uno studente di aver superato l’esame. Con ciò, si potrà disporre di variabili misurabili, ad esempio “le ore che ha dedicato allo studio” analizzando la felicità, che sono causalmente legate al costrutto teorico d’interesse e che consentono di eseguirne una misurazione finale.

I modelli di equazioni strutturali affrontano queste problematiche tramite il software Lisrel, caratterizzato da tecniche di analisi multivariata, come la path analysis, che studia i legami causali tra le variabili e l’analisi fattoriale per analizzare le variabili latenti.

LA PATH ANALYSIS

La path analysis è un metodo per sezionare la correlazione in parti diverse per interpretarne gli effetti (la regressione è un caso particolare di path analysis). Si può descrivere pure come “modellazione causale” poiché alcune variabili sono collegate da un nesso causale, ma non sempre una relazione causale può definirsi corretta. La path analysis rappresenta una tecnica per stimare l’importanza dei legami tra variabili e usare queste stime per fornire informazioni sui processi causali sottostanti. Divenne importante quando Jöreskog e altri la incorporarono

nei modelli di equazioni strutturali.

La path analysis si scompone in due parti:

– il path diagram;

– la path analysis in senso stretto, cioè la scomposizione delle covarianze o correlazioni in termini di parametri del modello.

IL PATH DIAGRAM

Il path diagram, rappresenta graficamente il sistema di equazioni concomitanti, anche se la relazione fra tutte le variabili comprende fattori di disturbo ed errori di rilevazione. I criteri di tale rappresentazione sono (come vedremo nel modello pratico):

– le variabili non osservate o latenti, racchiuse in un cerchio o ellisse;
– le variabili osservate racchiuse in un quadrato o rettangolo;
– i termini di disturbo o errori, rappresentati con la lettera corrispondente ma non cerchiati;
– le relazioni causali tra le variabili implicate, rappresentate con una linea dritta unidirezionale, in cui la variabile che riceve la freccia, dipende dalla variabile da cui parte la freccia.
– l’ associazione, raffigurata da una linea curva a due direzioni, tra due variabili che può essere dovuta ad una terza variabile o che, pur essendo causale, non è specificata.

LA PATH ANALYSIS IN SENSO STRETTO

La path analysis in senso stretto può dare una valutazione numerica delle relazioni, per misurarne l’intensità, in cui si esprimono le covarianze o le correlazioni tra due variabili come somma di tutti i percorsi composti che legano le due variabili, tramite dei coefficienti collocati su tali percorsi, ovvero i path coefficients che valutano l’impatto di una variabile su un’altra quando tutte le altre sono mantenute costanti.

Le regole della path analysis sono:

– tutte le relazioni sono additive e lineari;
– le relazioni causali (cosa causa cosa) sono rappresentate nel path diagram;
– i residui (termini d’errore) sono slegati dalle variabili del modello e tra di loro;
– non devono esserci loop, cioè un percorso composto non deve passare due volte per la stessa variabile, non ci deve essere ridondanza;
– in un percorso non si può percorrere prima una freccia in avanti e poi un’altra all’indietro, poiché non avrebbe senso dal punto di vista concettuale;
– in un percorso non si può considerare più di una linea curva, che ne rappresenta un’associazione.

Le relazioni catturate nella scomposizione delle correlazioni sono dirette, cioè non mediate da altre variabili; gli effetti indiretti operano attraverso l’intervento di almeno una variabile, costituendone la componente causale (effetto), o spurie (relazione di covarianza, non dipendendo direttamente dall’effetto della variabile indipendente) e congiunte, che ne rappresentano la componente non causale. La somma delle due componenti genera l’effetto totale (CAUSALE + NON CAUSALE = EFFETTO TOTALE).

La stima dei path coefficients ha una duplice caratteristica:

– rappresentano, per ogni equazione dei veri coefficienti di regressione che valutano l’impatto di un qualsiasi cambiamento di una variabile esogena sulla corrispondente endogena;

– sono dei coefficienti di regressione parziale, essendo la loro somma pari alla correlazione totale. Valutano l’impatto di una variabile su un’altra quando tutte le altre sono mantenute costanti. Ogni equazione viene stimata separatamente e non è fornita una stima complessiva del modello preso in considerazione. Non è ammessa la correlazione tra gli errori presenti nelle equazioni di regressione. In tal senso l’applicabilità della path analysis è valida solo per i modelli ricorsivi, cioè modelli in cui vi è una struttura gerarchica tra le variabili dipendenti

e in correlazione tra gli errori. Non si applica, invece, ai modelli non ricorsivi, i cui elementi caratterizzanti sono il loop.

Usando il path diagram, Wright propose regole per scrivere le equazioni che legano le correlazioni (o covarianze) delle variabili ai parametri del modello (secondo aspetto della path analysis). La spinta maggiore all’uso della path analysis nelle scienze sociali venne da Jöreskog (1973), Keesing (1972) e Wiley (1973) che svilupparono sistemi di equazioni strutturali generali che includevano il path diagram e altre caratteristiche della path analysis nella loro rappresentazione. Queste tecniche sono note con l’abbreviazione di modelli JKW (iniziali dei tre studiosi) o modello LISREL, la cui notorietà ha aiutato molto lo sviluppo della path analysis.

MODELLO DI REGRESSIONE LINEARE

Cerchiamo di vedere come si passa da una regressione semplice ad un’equazione strutturale. Tramite una funzione matematica (retta) si cerca di vedere se:

  • una variabile osservata viene spiegata da un’altra variabile osservata (regressione lineare semplice);
  • una variabile osservata viene spiegata da altre variabili osservate (regressione lineare multipla)
  • più variabili osservate vengono spiegate da altre variabili osservate (regressione lineare multivariata).

Regressione lineare semplice

Quando abbiamo una sola variabile indipendente e una sola variabile dipendente, parliamo di regressione lineare semplice. La variabile indipendente è una variabile osservata (indicata con X) che spiega (o influenza) la variabile dipendente, anch’essa osservata (indicata con Y). É possibile che la variabile Y non venga interamente spiegata da X, quindi le parti non utilizzate, ovvero non spiegabili, vengono chiamate errori.

Regressione lineare multipla

La relazione causale implicata dalla regressione semplice è abbastanza semplicistica perchè ipotizza che una sola variabile possa essere la spiegazione di un’altra. È più probabile che esistano più cause concomitanti che concorrono, in misura diversa, a spiegare la dipendente.

Regressione lineare multivariata

Se la regressione multipla è un ampliamento di quella semplice, in quanto presuppone più variabili indipendenti che vanno a spiegare una singola variabile dipendente, una situazione ancora più realistica è quella rappresentata da una regressione multivariata. In questo caso, vi sono diverse variabili osservate X che influenzano diverse variabili osservate Y. Con questo tipo di modello le variabili dipendenti possono essere pensate come l’effetto concomitante di diverse cause (le X), ciascuna con un peso e un’importanza diversa.

COSTRUZIONE DEI MODELLI TRAMITE “AMOS”

AMOS (Analysis of moment structures), ideato da Arbuckle nel 1995, è un software all’interno del modulo di programmazione SPSS. Il software è suddiviso in due moduli: Grafica e Base.

Il modulo Grafica fornisce un’interfeccia grafica in cui il ricercatore può scegliere il modello, tramite apposite finestre di dialogo, disegnandolo sullo schermo e controllando gli altri aspetti dell’analisi; il modulo Base consente al ricercatore di creare un programma di comandi.

La sua sintassi non usa parole-chiave per i nomi delle variabili. All’interno del software si possono produrre le stime dei parametri, gli errori standard, intervalli di fiducia e vi è la disponibilità di un metodo speciale di massima verosimiglianza adeguato per l’analisi di variabili con dati mancanti. Può analizzare modelli misti con fattori categoriali latenti, che considerano l’appartenenza dei casi a classi diverse.

Creazione del modello pratico di equazione strutturale con AMOS

Descrizione del modello:

Gli ovali rappresentano le variabili latenti, ovvero variabili psicologiche, non misurabili direttamente, aventi un’intensità ma non un’estensione, ipotetiche. Se non si possono misurare direttamente, come facciamo a misurarle? Serve una definizione operativa, cioè dobbiamo trovare quel correlato comportamentale della “motivazione” nonché “dell’impegno” e del “senso di autoefficacia”, che si andrà a misurare invece. Questo comportamento osservabile è rappresentato dal quadrato con le sue X (1,2,3,4) ovvero le sue variabili osservate, reali, che si misurano direttamente. Le frecce che vanno dalla latente all’osservata si chiamano saturazioni lambda (λ). La saturazione è l’effetto che il nostro costrutto psicologico esercita sul nostro comportamento, ovvero la forza dell’effetto che ha il costrutto. Per ogni misurazione vale la teoria dell’errore di misura, cioè in ogni misura può esistere una componente di errore ineliminabile. Gli errori non devono essere correlati, altrimenti sorge un problema. Le X sono state numerate progressivamente, e ad ogni X è stato associato un errore (δ). Gli ovuli che ricevono la freccia sono denominate (η) con “impegno” e “senso di autoefficacia”. La lettera η deve avere una variabile osservata, per le Y vale lo stesso principio della teoria della misura , cioè per ogni misura è insita una componente di errore (ε). Se analizziamo “Motivazione allo studio” vi è (λ11), vi è l’item, cioè ogni domanda a cui si risponde, rappresentata dal quadrato con le X (1,2,3,4). Se in un questionario dovessi misurare l’estroversione e vengono poste 10 domande, 5 misureranno la TIMIDEZZA (sulla variabile latente “timidezza”) e le altre 5 misureranno la SOCIEVOLEZZA sulla variabile associata o Item. Le frecce dalla “motivazione” a “impegno” o “motivazione” a “senso di autoefficacia”, sono raffigurate dalla lettera γ ed è l’effetto che la motivazione esercita sull’impegno, perché un soggetto non si impegna se prima non c’è un motivo per studiare, nonché il senso di autoefficacia. Albert Bandura elaborò il concetto di “senso di autoefficacia”, ovvero la convinzione che la persona ha di essere all’altezza delle proprie aspettative, convinta di saper raggiungere uno scopo. La doppia freccia (θ) è detta correlazione, cioè impegno e senso di autoefficacia sono correlate, “se io mi impegno allora sono maggiormente convinta di potercela fare”. Tale modello, detto esplorativo, sono modelli teorici, inventati dai ricercatori, poi sottoposti a verifica, con questionari, in cui in base a questo modello ho quattro X e otto Y quindi vuol dire che devo creare un questionario con un minimo di 12 domande da sottoporre a 100 studenti per vedere se il modello è vero o falso. Una volta somministrato agli studenti, ho un’analisi quantificabile, numeri che analizzerò con SPSS da cui ne verrà ricavata la matrice delle correlazioni. Ogni item è collegato agli altri nonché con se stesso, quindi ci sarà una matrice che avrà in diagonale tutti gli 1. Una volta creato il questionario con i 12 ITEM, formulati secondo certe tecniche, non ci dovranno essere doppie negazioni, una sola frase o tutte insieme. Se sottopongo ad un numero di studenti 30 minimo e 50 studenti massimo, si ritirano i questionari ed eseguo il DATA ENTRY con SPSS, che mi estrarrà la matrice delle correlazioni e quella delle saturazioni (come farò vedere successivamente). Quella di correlazione è una matrice con diagonale di tutti 1 perché ogni item correla esattamente con se stesso. Sotto le diagonali ci sono altri numeri tra 0 e 1, di cui più il numero è alto, più l’item correla con un altro. La matrice vera e propria, è quella delle saturazioni con valori tralasciati e altri presi in considerazione, saturazioni con un valore maggiore di 0.30, in cui vale la regola che un Item deve avere una saturazione alta su una variabile latente (“studio ogni giorno almeno 2 ore”, che indica il numero di ore che si dedica allo studio). Le ore possono essere 2-4, vuo dire che su questo item deve stimare un valore alto sull’impegno e NON sul senso di autoefficacia, dovrò avere 0.75 sull’impegno e 0.15-0.20 (bassa) sugli altri due. Vuol dire che l’item è stato formulato correttamente, perché se c’è una saturazione massima in contemporanea su più variabili latenti, vi si pone il problema perché vuol dire che la domande è stata formulata male. SPSS genera un’analisi fattoriale esplorativa (il ricercatore non ha ideato il modello, non sa cosa può succedere). Se già ho un modello teorico che voglio verificare, devo vedere (è veramente così? La matrice incide sull’impegno e l’autoefficacia?), devo confermare, quindi eseguire un’analisi fattoriale confermativa, in cui vengono creati i grafici (SCREEN PLOT), in cui si prenderanno in considerazione quel numero di fattori che spiegano la maggiore quantità di varianza, ovvero la variabilità delle risposte degli studenti. Tale modello raggrupperà tutte le risposte in un fattore, ovviamente non potrà mai spiegare il 100% della variabilità delle risposte ma almeno un 60-70%. Poi si vedrà nello screen plot che quando i puntini (fattori) si appiattiscono verrà eseguito un CUT-OFF, cioè verrà tagliata perché sono da escludere e poi vi saranno i puntini in alto (verdi) da considerare. Se SPSS tirerà fuori 2/3 fattori che spiegano il 60-65% di varianza, il lavoro si potrà considerare ottimale.

Matrice del modello

ξ = errore di specificazione

Ci può essere una matrice Psi (ψ) che è la matrice di covarianza tra le variabili latenti η1 e η2, che esprime un’eventuale relazione di linearità tra due o più variabili.

Matrice Theta (matrice di covarianza tra gli 8 errori ε e δ)

ξ = xi

γ = gamma

δ = delta

ε = varepsilon

η = eta

θ = theta

ψ = psi

λ = lambda

Claudia Coco

Claudia Coco è attualmente sociologa e collaboratrice ENASC (Ente Nazionale di Assistenza Sociale ai Cittadini), ANPIM (Associazione Nazione delle Piccole e Medie Imprese) e UNSIC (Unione Nazionale Sindacale Imprenditori e Coltivatori) presso la 5° Circoscrizione di Catania.

Laureata in sociologia presso il Dipartimento di Scienze Politiche e Sociali di Catania con tesi in Sociologia Urbana “Pratiche e approcci del vivere la città. Azioni, spazi e differenze “nei” quartieri di San Berillo”.

Si occupa attualmente di studi socio-antropologici presso i quartieri di San Berillo in Catania.

Per informazioni e contatti:
clacoco28 [chiocciola] gmail punto com
Claudia Coco

Latest posts by Claudia Coco (see all)

Condividi