Incertezza

home/risorse

Con l'espressione "incertezza", in campo scientifico, si intende un sapere incompleto, indeterminato, uno stato di conoscenza limitata in cui è impossibile descrivere esattamente lo stato esistente. La scarsa conoscenza di un accadimento rende impossibile determinare con certezza gli effetti. Ma non solo. Anche in presenza di una informazione completa, l'uomo è spesso incapace di ragionare correttamente. La conoscenza seppur infinita, trova nell'uomo uno strumento limitato. La conoscenza assiomatica diventa nelle mani dell'uomo un esperimento dall'esito incerto.

L'incompletezza e la fallibilità del ragionamento scientifico è evidente negli effetti talora catastrofici di alcune recenti decisioni in materia di sicurezza (BSE, asbesto, ecc.). Sebbene i potenziali effetti siano stati tempesticamente intravisti, tali moniti sono stati trascurati perchè non sufficientemente comprovati dall'evidenza scientifica, che appariva, appunto, incerta. Chi ha il compito di tutelare la sicurezza sulla salute ha, in questi casi, commesso degli errori di valutazione causati dall'incertezza.

Il termine incertezza intesa come incompletezza del sapere nasce da più cause, tra loro non esclusive. È possibile definire almeno quattro forme di incertezza:

  1. rischio
  2. incertezza in senso proprio
  3. ignoranza
  4. indeterminatezza

Nel pimo caso, l'incertezza prende il significato di rischio. Quando parliamo di un evento rischioso si presume che le variabili siano conosciute e che la probabilità a loro associata sia quantificata. Il rischio è un'espressione dell'incertezza che nasce pincipalmente dalla natura stocastica degli eventi. Per assurdo, sarebbe possibile osservare un evento su ciascun elemento di una popolazione senza però essere in grado di determinare in modo univoco il suo effetto. Anche con una conoscenza completa del fenomeno non si esclude un rischio nel prendere una decisione. Pur sapendo sbaglio. E il rischio associato alla decisione è tanto più grande quanto più incerto è il fenomeno osservato. In conclusione, il rischio è legato alla variabilità della natura. Un medico lavora costantemente in condizioni di rischio. Scegliere una terapia comporta la conoscenza degli effetti, sia di quelli positivi che di quelli negativo, ma anche della probabilità ad essi associata.

Nel secondo caso, le decisione sono prese in condizioni di incertezza. Pur essendo noto il possibile effetto di un fenomeno, si ignora la probabilità del suo verificarsi. Pur conoscendo i parametri del sistema, si ignora la probabilità del suo accadimento. Per esempio, un medico che lavora in condizioni di incertezza conosce il paziente, sa valutare gli effetti della malattia, ma non può prevedere il suo accadere. Il medico incerto può conoscere l'anamnesi del paziente, ma non conosce la probabilità associata agli eventuali fattori di rischio. La diagnosi è perciò incerta.

Nel terzo caso, ovvero nello stato di ignoranza, la conoscenza delle variabili rilevanti è incompleta, e manca quindi la possibilità di quantificare il fenomeno. L'ignoranza allude a situazioni in cui non si conoscono gli effetti nè le probabilità associate all'evento. Il medico ignorante non conduce un anamnesi, nè conosce la probabilità associata ai fattori di rischio. La diagnosi è in questo caso basata sul caso.

Infine, l'indeterminatezza è quella particolare incertezza che si produce nell'interazione tra diversi sistemi in competizione tra loro. L'indeterminatezza è un concetto che riassume il carattere tendenzialmente aperto e condizionale di ogni conoscenza. Le decisioni sono indeterminate se vi sono più di un contesto da tenere in considerazione. L'incertezza è indeterminata se i risultati sono diversi a seconda della metodologia utilizzata. Lo scontro tra teorie, la competizione tra discipline, la variabilità dei punti di vista sono causa di indeterminatezza. L'indeterminatezza accade quando lo stesso evento, per esempio i possibili danni che le colture OGM possono arrecare alla biodiversità, è descritto da una molteplicità di prospettive egualmente legittime: si pensi al punto di vista dell'industria biotech, ma anche quella dell'ecologia delle popolazioni, quella degli agronomi e dei coltivatori biologici i quali possono subire dei danni. Ciascuna prospettiva rappresenta un interesse specifico e non è possibile separare la sfera dei fatti da quella dei valori. Il medico si torva spesso in condizioni di indeterminatezza quando deve scegliere tra terapie che possono salvare la vita a descapito della qualità dell'individuo. I dilemmi dell'accanimento teraputico, dell'eutanasia, dell'aborto sono decisioni non solo incerte, ma anche indeteminate perchè coinvolgono valori non univoci e spesso contrastanti.

Misura dell'incertezza

La misura dell'incertezza di una caratteristica si basa sulla sperimentazione empirica. La misura delle frequenze che la caratteristica può assumere entro un certo intervallo di possibili valori numerici o categorie consente di costruire un grafico di distribuzione di frequenza. La distribuzione di frequenza della caratteristica esprime l'incertezza. Ad esempio, se chiedessimo a cento medici quale terapia consigliare ad uno stesso paziente potremmo ottenere una o più risposte. Se per assurdo tutti i cento medici fornissero la medesima terapia, allora l'informazione prodotta dai medici è determinata, finita, univoca. Allontanndoci da questo caso limite, potemmo in modo più realistico attenderci una certa variabilità di risposte e, quindi, di terapie. La variabilità delle soluzioni proposte è un indice dell'incertezza associata al processo decisionale dei medici. Questa variabilità nasce dall'incompletezza dei dati a disposizione, dall'ignoranza su specifici aspetti della malattia e, infine, dall'indeterminatezza associata alle conseguenze e controindicazioni che la terapia può comportare.

La misura dell'incertezza è quindi basata sulla osservazione empirica della caratteristica e, pertanto, sulla definizione della distribuzioni di frequenza osservata. Vale la pena ricordare dalla distribuzioni di frequenza è possibile sempre ricavare le corrispondenti distribuzioni di probabilità. Queste ultime sono ottenute trasformando i valori di frequenza in valori di probabilità, ovvero dividendo le frequenze osservate per il totale delle osservazioni (ampiezza del campione), secondo la ben nota formula:

P(x) = n / N

Per rappresentare graficamente le distribuzioni di frequenza, così come le distribuzioni di probabilità, è quindi opportuno descrivere uno strumento fondamentale in tutte le indagini su una popolazione: l'istogramma.

Istogramma

L'istogramma è lo strumento grafico che consente di rappresentare le distribuzioni di frequenza e di probabilità. Un istogramma è un grafico formato da tanti rettangoli quante sono le classi o le categorie che la caratteristica può assumere. L'area di ciascun rettangolo è il prodotto tra la larghezza del rettangolo (intervallo) per l'altezza (frequenza). Questo valore è proporzionale alla frequenza. Per ragioni di comodità, l'ampiezza degli intervalli è costante.

Costruzione di un istogramma

Per costruire un istogramma è necessario raggruppare le osservazioni in classi e, entro ciascuna classe, contare le frequenze. Per esempio, costruiamo la distribuzione delle frequenze relative alla soddisfazione dei clienti. Avendo definito un opportuno indicatore, si sono raccolti i seguenti dati:

  10     8     10     9     11  
10 13 10 13 8
9 10 11 10 10
11 9 12 11 11

Il numero di osservazioni è N=20. L'ampiezza dei valori osservati è 5 (max = 13, min = 8). La scelta del numero di classi e della loro ampiezza è arbitrario. Tuttavia, un criterio è quello di suddividere l'ampiezza dei valori osservati in modo che mediamente, in ciascuna classe possano esserci almeno 4 o 5 valori. Le classi con un numero di frequenze inferiore non sono generalmente utili. Per questo esempio procediamo con il costruire 6 classi di dimensione unitaria:

    Classe       xi     fi  
7.5 - 8.5 8 2
8.5 - 9.5 9 3
9.5 - 10.5 10 7
10.5 - 11.5 11 5
11.5 - 12.5 12 1
12.5 - 13.5 13 2

Per costruire l'istogramma è sufficiente plottare la frequenza di ciascuna classe in funzione del centro di classe. L'istogramma seguente rappresenta la distribuzione di frequenza:

Media e deviazione standard della popolazione

La media è un indice di posizione centrale. La formula generale è:

xm = Σ(xi)/N

dove con xi) si intendono i valori osservati,mentre N è il numero totale di osservazioni.

Quando i dati sono raggruppati sotto forma di un istogramma di frequenza, la formula per la media diventa:

xm = Σ(xi · fi)/N = 10.3

La varianza è un indice di dispersione. La formula generale è:

σ2 = Σ(xi - xm)2/N

Quando i dati sono raggruppati sotto forma di un istogramma di frequenza, la formula per la varianza diventa:

σ2 = Σ fi · (xi - xm)2/N = 1.905

Dove tutti i simboli sono stati definiti in precedenza.

Per calcolare la media, la varianza e la deviazione standard dei dati osservati, si imposta, quindi, una tabella come segue:

  xi     fi    xi - xm   (xi - xm)2   fi·(xi-xm)2 
dev=36.2
var=1.91
σ=1.38
8 2 -2.3 5.29 10.58
9 3 -1.3 1.69 5.07
10 7 -0.3 0.09 0.63
11 5 0.7 0.49 2.45
12 1 1.7 2.89 2.89
13 2 2.7 7.29 14.58

Distribuzione normale

Con i dati dell'esempio pecedente è stato possibile disegnare un istogramma e calcolare il valore della media e della deviazione standard della caratteristica in esame. A questo punto è utile effettuare un'analisi più approfondita dei dati ottenuti. Innanzitutto, dall'analisi dell'istogramma si osserva una certa assomiglianza alla distribuzione normale. Verifichiamo, quindi, che i dati sperimentali ottenuti sono distribuiti secondo una distribuzione normale.

Verifica che i dati osservati sono distribuiti secondo una curva normale

Per verificare se l'istogramma ottenuto può essere rappresentato adeguatamente da una distribuzione normale occorre disegnare la curva normale con media uguale a 10.3 e deviazione standard pari a 1.38.

La formula per disegnare una distribuzione normale è la seguente:

f(z) = (2π)-0.5 · EXP(-0.5 · z2)

dove con z si indica la variabile normale standardizzata, calcolata come:

z = (xi - xm) / σ

L'utilizzo della variabile standardizzata z è molto utile. Infatti, consente di trasformare una distribuzione normale avente una qualsiasi media e dev. standard, in una curva con media uguale a zero e dev. standard pari a 1.

Il vantaggio di questa trasfomazione apparirà evidente tra poco...

Adesso, costruiamo la curva normale che meglio si adatta ai valori ottenuti sperimentalmente. Per farlo impostiamo la seguente tabella:

  classe     xi     fosservate     z(xi)     Fi     pi     fattese  
... ... ... ... ... ...

In cui:

Con i dati dell'istogramma si ottiene la seguente tabella:

  classe       xi       fosservate       zi         Fi         pi         fattese    
7.5 - 8.5 8 2 -1.67 0.05 0.05 0.96
8.5 - 9.5 9 3 -0.94 0.17 0.13 2.51
9.5 - 10.5 10 7 -0.22 0.41 0.24 4.82
10.5 - 11.5 11 5 0.51 0.69 0.28 5.60
11.5 - 12.5 12 1 1.23 0.89 0.20 3.94
12.5 - 13.5 13 2 1.96 0.975 0.08 1.68

Nella precedente tabella i valori di z e la funzione cumulativa Fi sono stati calcolati in corrispondenza dei limiti superiori di ciascuna classe.

Per esempio, per il centro di classe 8:

Analogamente per il centro di classe 9:

E così via per tutti gli altri valori:

Con i dati della tabella precedente è possibile valutare se la curva normale fitta i dati sperimentali. Il test statistico è il Χ2:

  O     E     O-E     (O-E)2     (O-E)2/E  
2 1.9 n.d. n.d. n.d.
3 3.7 0.7 0.5 0.1
7 5.5 1.5 2.2 0.4
5 5 0 0 0
1 2.7 n.d. n.d. n.d.
2 0.9 n.d. n.d. n.d.

Come si vede dalla tabella, le differenze per le classi con frequenze inferiori a 3 non sono state prese in considerazione. Infatti, i valori di chi quadro ottenuti per frequenze piccole sono soggetti ad errori molto grandi. Per esempio se il valore atteso fosse 1 e quello osservato 3, questa differenza produrebbe da sola un chi quadro pari a 4. È evidente che il contributo di questo scostamento al valore del chi quadro finale è eccessivo. Pertanto, è una buona pratica considerare nel test solo le frequenze superiori a 3-5.

Formalmente, il test prevede di saggiare l'ipotesi nulla H0 che le differenze tra i valori attesi e osservati sono uguali a zero, contro l'ipotesi alternativa che tali differenze sono invece diverse da zero e quindi significative.

Considerando le tre classi più popolate, si ottiene un valore del chi quadro pari a 0.5. Il valore critico per 2 g.d.l. al 5% di confidenza, vale circa 6. Non è quindi possibile rifiutare l'ipotesi nulla: le differenze tra i valori attesi e quelli osservati sono imputabili unicamente al caso.

Generalmente, il test chi quadro deve essere effettuato con almeno 30-50 dati. Per un numero di osservazioni inferiore si ripete il problema precedentemente descritto per le classi popolate da meno di 3-5 dati. Con pochi dati, anche delle differenze casuali possono pesare molto e portare a rifiutare l'ipotesi nulla. Per ovviare a questo problema, si ricorre alla correzione di Yates, descritta nelle dispense. In questo esempio, anche senza la correzione di Yates non è possibile rifiutare l'ipotesi nulla.

Intervalli di confidenza della media di una popolazione

Con lo studio precedente si può concludere che il modello normale è in grado di descrivere i dati sperimentali. Se i venti dati osservati rappresentano la popolazioen intera oggetto di studio, allora la media e la deviazione standard sono sufficienti per descrivere completamente la caratteristica in esame. Per esempio, se i venti dati precedentemente considerati si riferissero agli alunni di una classe, ed in particolare al loro peso, allora potremmo definire dei limiti di confidenza entro i quali cade il 95 o il 99% della popolazione.

In generale, quando si conosce μ e σ di una popolazione è possibile definire un intervallo di confidenza per un certo livello di fiducia, α, secondo la seguente formula:

Xm - zα/2 σ ≥ μ ≥ Xm + zα/2 σ

In pratica, i valori di α che si utilizzano sono 0.05 e 0.01, che corrispondono al 95 e 99% di fiducia. I rispettivi valori di α/2 valgono 1.96 e 2.58, rispettivamente. In altre parole, l'intervallo che descrive il 95% della popolazione è calcolabile da:

Xm - 1.96 σ ≥ μ ≥ Xm + 1.96 σ

ovvero:

P(Xm - 1.96 σ ≥ μ ≥ Xm + 1.96 σ) = 0.95

Mentre, l'intervallo che descrive il 99% della popolazione è calcolabile da:

Xm - 2.58 σ ≥ μ ≥ Xm + 2.58 σ

ovvero:

P(Xm - 2.58 σ ≥ μ ≥ Xm + 2.58 σ) = 0.99

Con i dati utilizzati finora si ottengono i seguenti intervalli della popolazione:

P(7.6 ≥ μ ≥ 13.0) = 0.95%

e:

P(6.7 ≥ μ ≥ 13.9) = 0.99%

Distibuzione campionaria

Spesso i dati a nostra disposizione sono solo un campione della popolazione. A partire da pochi dati, lo sperimentatore vuole inferire sui parametri della popolazione.

Gli intervalli di confidenza sono utilizzati per associare alla stima di un parametro di una popolazione (media, deviazione standard) anche un livello di fiducia:

Int. di confidenza: Xm ± zα/2 σ/√n

Questa intervallo è chiamato intervallo di confidenza. Quando zα/2 vale 1.96, l'intervallo contiene la media della popolazione, μ, con una probabilità del 95%.

Esempio

L'indice di massa grassa è stimato con la misura delle pliche addominali. La deviazione standard del metodo, σ, è di 6 mm. I risultati sono:

id mm
Σ 100
1 23
2 19
3 25
4 33

Determinare:

Soluzione

In questo esempio si eseguono 4 misure effettuate con un metodo di cui si conosce la deviazione standard, σ. Per calcolare l'intervallo di confidenza, occorre determinare la media, Xm e i limiti superiore e inferiore.


Intervallo di confidenza con σ non noto

home/risorse/statistica/intervallo di confidenza

Se la deviazione standard non è nota, essa viene calcolata dalle misure sperimentali con la formula:

s2 = (Σx2) - (Σx)2/n) / (n-1)

Dai dati dell'esempio precedente:

s2 = (2604 - 10000/4) / (3) = 34.67 mm2.
s = 5.89 mm.

Per calcolare l'intervallo di confidenza si usa al posto del valore 1.96, il valore dalla variabile t di Student, che varia in funzione dei gradi di libertà. L'intervallo di confidenza diventa quindi:

Int. di confidenza: xm ± t(α/2,n-1) s/√n

Esempio

Dai dati dell'esempio precedente, per determinare l'intervallo di confidenza occorre determinare la media, la deviazione standard e il valore di t critico.


Intervallo di confidenza di σ

home/risorse/statistica/intervallo di confidenza

Come la media, anche la stima della deviazione standard è affetta da incertezza.

L'incertezza della deviazione standard può essere calcolata sulla base della distribuzione Χ2 per n-1 gradi di libertà. La variabilie Χ2n-1 è definita come il rapporto tra la devianza sperimentale rispetto la varianza della popolazione:

Χ2(α/2, n-1) = Σ(x-xm)2 / σ2

Da questo rapporto, l'intervallo di confidenza della deviazione standard con il 5% di fiducia è calcolato utilizzando i valori critici della variabile Χ2(α/2, n-1):

(n-1) s2 / Χ2(0.025, n-1) < σ2 < (n-1) s2 / Χ2(0.975, n-1)

La deviazione standard della popolazione è contenuta in questo intervallo, con una probabilità del 95%.

Esempio

Con i dati dell'esempio precedente.

Calcolare l'intervallo di condidenza di s.

Soluzione

Per calcolare l'intervallo di condidenza di s occorre calcolare i valori critici della variaibile Χ2(α/2, n-1) e la devianza stimata.