La Tossicologia del XXI secolo è qui!

In questo post scardineremo le varie critiche che il gruppo pro-s.a. “Pro-Test Italia” ha avanzato contro il lavoro di Hartung su Nature del 2009, “Toxicology for the twenty-first century”.

1) Queste persone affermano, riguardo al primo studio citato da Hartung, ovvero un documento edito dal NIEHS (National Institute of Environmental Health Sciences):

“Hartung fa notare che la correlazione media tra LD50 nei ratti e la concentrazione ematica letale dello stesso composto negli umani è scarsa, riportando il valore di 0.56. Leggendo il documento originale, si scopre che in realtà tale valore è 0.75, ben superiore di quello riportato da Hartung. […] Infatti, leggendo il report originale, si nota che il valore di 0.56 riportato da Hartung è in realtà il coefficiente di determinazione (R2), cioè il quadrato della correlazione (pagg. ix, 21 e 35 del documento originale). Quindi la correlazione di cui parla Hartung è 0.75 e non 0.56. Il che significa, considerate anche le differenze tra i due tipi di misura, che è molto alta.”

Non citano però la parte in cui, confrontando i valori di un test sostitutivo alla LD50 in fase di validazione che impiegava materiale biologico umano, esso dimostrava una maggiore correlazione (0.62) con la concentrazione letale della stessa sostanza chimica nel sangue degli esseri umani (LC50) più di quanto non avessero fatto test come il 3T3 che impiegava fibroplasti di topo (la sua correlazione era pari allo 0.51) e la stessa LD50 (come sopra detto correlazione tra LD50 e LC50 pari allo 0.56):
”The NHK NRU IC50 data had a higher correlation with human LC50 values (R2=0.62) than did rodent 3T3 NRU IC50 data (R2=0.51) and a higher correlation than did rodent LD50 data with human LC50 values (R2=0.56)”
E se il coefficiente di determinazione di 0.56 diventa un coefficiente di correlazione di quasi lo 0.75, il coefficiente di determinazione del nostro metodo alternativo (0.62) diventa un coefficiente di correlazione di quasi lo 0.79!
Ecco dimostrato come il metodo alternativo in questione dia comunque risultati migliori dell’animale.

2) Il secondo lavoro citato da Hartung è:
Basketter, D.A., York, M., McFadden, J.P. & Robinson, M.K. (2004). Determination of skin irritation potential in the human 4-h patch test. Contact Dermatitis. 51, 1-4.
e la critica è la seguente:

“Quella cui si riferisce implicitamente Hartung è la specificità, indicante la percentuale di falsi positivi (irritante nel coniglio ma non nell’uomo). Da quanto detto si può dedurre che il test dermatologico sul coniglio risulta efficiente per salvaguardare la salute umana (perché sensibile) ma può generare dei falsi positivi.”

Tuttavia, è ciò che lo stesso Hartung afferma, pertanto si è utilizzata la fallacia dell’uomo di paglia: ovvero s’è cercato di confutare un argomento riproponendolo in maniera errata.

Infatti, se leggiamo nel testo, troviamo:
“Similarly, in another study, 40% of the chemicals that irritated the skin of rabbits were found not to be irritants in the skin ‘patch test’ in humans.”

3) Il terzo articolo è “Data quality in predictive toxicology: reproducibility of rodent carcinogenicity experiments.” di Gottmann et al., 2001.
La critica è la seguente:

“questo lavoro non investiga la generalizzabilità dei risultati da una specie all’altra, ma da un database (NCI/NTP) all’altro (letteratura generale), a parità di specie (topi e ratti, si veda l’Introduzione, pag. 509, del lavoro originale). Quindi l’uso che fa Hartung di questa citazione è semplicemente improprio.”

Tuttavia, se la riproducibilità all’interno della stessa specie è così bassa, la trasposizione di questi risultati all’uomo lo sarà di certo ancora meno.

Inoltre affermano:

“per inciso gli stessi autori dichiarano che altri studi hanno rilevato una riproducibilità degli effetti carcinogenici compresa tra il 93% e il 76%”

Ma anche qui, gli stessi autori attribuiscono questi risultati a dei bias, infatti leggiamo:
“Looking for an explanation for the discordance with our results, we realized that from 47 concordant experiments (sex, administration route, and target organs were considered; therefore, the number of experiments is larger than the number of compounds) with rats and mice listed by Gold et al. (16), 34 results were published by the same authors. This may have led to a bias towards identical results, but it may be also an indicator of the importance of strict experimental protocols for reproducibility. In addition, the results may differ for statistical reasons caused by the different data sets (size and selection of compounds)”

4) Il quarto studio è “Species Sensitivities and Prediction of Tetratogenic Potential” di Schardein et al., 1985.
La critica è:

“Questo lavoro (assai datato) compara i risultati sulla teratogenicità (tossicità fetale) di molti composti in specie differenti, compresa quella umana. Hartung, citando quest’articolo, riporta una concordanza del 53-60%, evidenziando come i risultati ottenuti su una specie siano difficilmente generalizzabili alle altre. […] Non sono riuscito a trovare nel testo il dato riportato da Hartung (53-60%), quindi ho analizzato le tabelle riportate nella fonte, che mostrano la teratogenicità di molte decine di composti in varie specie non umane.”

E da questo presupposto hanno iniziato a calcolare la media “corretta”.
Peccato che nell’articolo di Hartung non si parli della concordanza media, ma di “tipici risultati”, leggiamo infatti:
“Typical results from such studies show agreement between animal species for 53–60% of chemicals”.
Infatti i “typical results” del 53 e del 60% sono quelli del topo e del ratto – non a caso le specie maggiormente utilizzate – nella tabella 5 sulle estrapolazioni da specie a specie che più precisamente esprimono il rapporto tra il numero di composti risultati non teratogenici nei due roditori e il numero di composti risultati non teratogenici nell’uomo (rapporto NT/T).

5) Il quinto studio è il famosissimo Olson Study del 2000.
La critica è:

“Il punto principale è che tale lavoro, come specificato dagli autori stessi (primo paragrafo della Discussione), non è volto a misurare il valore predittivo degli studi animali sull’uomo. Riporto di seguito le parole degli autori:
“This study did not attempt to assess the predictability of preclinical experimental data to humans. What it evaluated was the concordance between adverse findings in clinical data with data which had been generated in experimental animals (preclinical toxicology).””

Peccato che precedentemente dica anche:
“The primary objective was to examine how well toxicities seen in preclinical animal studies would predict actual human toxicities for a number of specific target organs using a database of existing information …”
Questo studio è infatti abbastanza controverso, e spesso viene portato come prova della “validità della s.a.”, tuttavia vi sono già stati autori che l’hanno criticato, riporto a tal proposito le considerazioni di Niall Shanks, Ray Greek e Jean Greek nella pubblicazione peer-reviewed “Are animal models predictive for humans?”:

“The Olson Study, as noted above, has been employed by researchers to justify claims about the predictive utility of animal models. However we think there is much less here than meets the eye. Here’s why:
1. The study was primarily conducted and published by the pharmaceutical industry. This does not, in and of itself, invalidate the study. However, one should never lose sight of the fact that the study was put together by parties with a vested interest in the ou
tcome. If this was the only concern, perhaps it could be ignored, however, as we will now show, there are some rather more serious flaws.

2. The study says at the outset that it is aimed at measuring the predictive reliability of animal models. Later the authors concede that their methods are not, as a matter of fact, up to this task. This makes us wonder how many of those who cite the study have actually read it in its entirety.
3. The authors of the study invented new statistical terminology to describe the results. The crucial term here is “true positive concordance rate” which sounds similar to “true predictive value” (which is what should have been measured, but was not). A Google search on “true positive concordance rate” yielded twelve results (counting repeats), all of which referred to the Olson Study (see figure 5). At least seven of the twelve Google hits qualified the term “true positive concordance rate” with the term “sensitivity” – a well-known statistical concept. In effect, these two terms are synonyms. Presumably the authors of the study must have known that “sensitivity” does not measure “true predictive value.” In addition you would need information on “specificity” and so on, to nail down this latter quantity. If all the Olson Study measured was sensitivity, its conclusions are largely irrelevant to the great prediction debate.
4. Any animals giving the same response as a human was counted as a positive result. So if six species were tested and one of the six mimicked humans that was counted as a positive. The Olson Study was concerned primarily not with prediction, but with retroactive simulation of antecedently know human results.
5. Only drugs in clinical trials were studied. Many drugs tested do not actually get that far because they fail in animal studies.
6. “…the myriad of lesser “side effects” that always accompany new drug development but are not sufficient to restrict development were excluded.” A lesser side effect is one that affects someone else. While hepatotoxicity is a major side effect, lesser side effects (which actually matter to patients) concern profound nausea, tinnitus, pleuritis, headaches and so forth. We are also left wondering whether there was any independent scientific validity for the criteria used to divide side effects into major side effects and lesser side effects.
7. Even if all the data is good – and it may well be – sensitivity (i.e. true positive concordance rate) of 70% does not settle the prediction question. Sensitivity is not synonymous with prediction and even if a 70% positive prediction value rate is assumed, when predicting human response 70% is inadequate. In carcinogenicity studies, the sensitivity using rodents may well be 100%, the specificity, however, is another story. That is the reason rodents cannot be said to predict human outcomes in that particular biomedical context.
The Olson Study is certainly interesting, but even in its own terms it does not support the notion that animal models are predictive for humans. We think it should be cited with caution. A citation search (also performed with Google on 7/23/08) led us to 114 citations for the Olson paper. We question whether caution is being used in all these citations.”

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...