Readings

Visual and Statistical Thinking (by Edward R. Tufte)

남궁Namgung 2009. 8. 24. 12:06

제대로 다 읽지도 않으면서 도서관에서 이 책 저 책 많이 대출했더니, 만기일이 되었을때 제 때 제대로 반납하지 못하는 일이 생기기도 한다. 엊그제도 자동 이메일로 대출일이 경과되었으니 빨리 반납하라는 내용이 전송되었는데, 여기 저기 책장을 뒤져도 보이지가 않는다.

 

'가만... 내가 이 책을 빌렸었나...'

 

이 정도 생각이 들 정도면 학생의 자질이 의심스러워질 정도다. 아무리 생각해도 내가 대출한 기억이 없어 도서관에 가서 무슨 문제가 있는 것은 아닌지 문의를 하기까지 했다. 도서관 사서 아저씨는 차며, 책장 등 잘 찾아 보라면서 자기도 다른 도서관에 연락해서 확인해 보기는 한다고 한다.

 

그러고 집에 돌아와 혹시나 하고 다시 쭉... 찾아 봤더니, 아니나 다를까. 책상 위에 쭉 싸 놓은 책 더미 중에 그 얉은 책이 끼어 있다.

 

'이 무슨 창피인고... 읽기는 커녕 책을 빌린 사실도 기억하지 못하고 있으니...'

 

반성 충분히 하고, 책을 (정독하지는 못하고) 쭉 훑어 보았다. 대개의 책이 그러하듯, 이 책도 배울 점이 많다. ^^

 

이 책 제목은...

 

Visual and Statistical Thinking: Displays of Evidence for Making Decisions

(Edward R. Tufte, 1997)

 

31 페이지 밖에 되지 않고, 여러가지 사진과 그림이 섞여 있어서 더욱 읽기 쉬운 책이다. 특히, 시각적인 자료를 어떻게 활용하느냐에 따라 콜레라의 발병 원인을 찾을 수 있기도 하고, 우주선의 참사를 막는데 실패할 수도 있다는 큰 교훈을 담고 있는 책이다.

 

우선 1854년에 영국 런던에서 발생했던 콜레라의 유행을, 당시 조사했던 John Show 박사가 발생 지역의 지도를 활용해서 분석함으로써, 당시까지만 해도 공기를 통해서 전염될 수 있다는 잘못된 상식을 뒤집고, 감염 원인이 한 우물 (well)이었다는 것을 밝혀 냈다.

 

우물의 위치와 발병자의 위치를 주소에 표기함으로써 특정 우물을 중심으로 발병자가 몰려 있고, 그 우물을 폐쇄하자 감염자가 급감하는 사실을 통해서 물로써 콜레라가 전염되었음을 잘 설명한 "우수 사례"라고 소개하고 있다.

 

또한, 우리도 잘 알고 있는 1986년 우주왕복선 챌린저 호가 발사 73초 후에 폭발한 것은, 이미 O-ring이라는 부품이 저온에서 제대로 작동할 수 없어 위험 가능성이 이미 포착되었지만, 그 분석을 의사결정자들에게 설득력있게 소개하지 못해 결국은 그대로 발사하게 함으로써 비극적인 결과를 초래했다고 책에서는 제시하고 있다.

 

그러면서, 이 책의 저자 Edward R. Tufte는, 의사결정에 활용할 수 있도록 하기 위한 시각 자료를 활용하는데 필요한 원칙을 책 곳곳에서 아래와 같이 적고 있다.

 

 

An essential analytic task in making decisions based on evidence is to understand how things work - mechanism, trade-offs, process and dynamics, cause and effect. That is, intervention-thinking and policy-thinking demand causality-thinking.

 

Making decisions based on evidence requires the appropriate display of that evidence. Good displays of data help to reveal knowledge relevant to understanding mechanism, process and dynamics, cause and effect. That is, displays of statistical data should directly serve the analytic task at hand. (p. 3)

 

 

 

The Cholera Epidemic in London, 1854

 

 

 

 

 

1. Placing the data in an appropriate context for assessing cause and effect.

. . . This map reveals a strong association between cholera and proximity to the Broad Street pump, in a context of simultaneous comparison with other local water sources and the surrounding neighborhoods without cholera.

 

2. Making quantitative comparisons.

. . . The deep, fundamental question in statistical analysis is Compared with what? Therefore, investigating the experiences of the victims of cholera is only part of the search for credible evidence; to understand fully the cause of the epidemic also requires an analysis of those who escaped the disease.

 

3. Considering alternative explanations and contrary cases.

. . . the credibility of a report is enhanced by a careful assessment of all relevant evidence, not just the evidence overtly consistent with explanations advanced by the report. The point is to get it right, not to win the case, not to sweep under the rug all the assorted puzzles and inconsistencies that frequently occur in collections of data.

 

4. Assessment of possible errors in the numbers reported in graphics.

Snow's analysis attends to the sources and consequences of errors in gathering the data. In particular, the credibility of the cholera map grows out of supplemental details in the text - as image, word, and number combine to present the evidence and make the argument. (pp. 7-12)

 

 

 

 

 

 

. . . Those inferences and the resulting decisions and actions were based on various visual representations (maps, graphs, tables) of the evidence. The quality of these representations differed enormously, and in ways that governed the ultimate consequences.

For our case studies, and surely for the many other instances where evidence makes a difference, the conclusion is unmistakable: if displays of data are to be truthful and revealing, then the logic of the display design must reflect the logic of analysis.

 

Visual representations of evidence should be governed by principles of reasoning about quantitative evidence. For information displays, design reasoning must correspond to scientific reasoning. Clear and precise seeing becomes as one with clear and precise thinking.

 

For example, the scientific principle, make controlled comparisons, also guides the construction of data displays, prescribing that the ink or pixels of graphics should be arranged so as to depict comparisons and context. Display architecture recapitulates quantitative thinking; design quality grows from intellectual quality. Such dual principles - both for reasoning about statistical evidence and for the design of statistical graphics - include (1) documenting the sources and characteristics of the data, (2) insistently enforcing appropriate comparisons, (3) demonstrating mechanisms of cause and effect, (4) expressing those mechanisms quantitatively, (5) recognizing the inherently multivariate nature of analytic problems, and (6) inspecting and evaluating alternative explanations. When consistent with the substance and in harmony with the content, information displays should be documentary, comparative, causal and explanatory, quantified, multivariate, exploratory.

And, as illustrated by the divergent graphical practices in our cases of the epidemic and the space shuttle, it also helps to have an endless commitment to finding, telling, and showing the truth. (p. 31)

 

결국은 분석의 과정이 중요한데, 특히 지속적으로 적절한 비교를 실행하고, 인과관계의 메커니즘을 제시하며, 그 메커니즘을 수치로 표현함과 동시에 분석과정에서 나타날 수 있는 대안적인 설명 등의 문제를 점검해야 한다는 점 등을 강조하고 있다.

 

이 책은 Tufte 교수의 다른 책과 마찬가지로 데이터를 어떻게 제대로 활용하느냐에 따라 똑같은 데이터가 그 역할을 제대로 할 수 있기도 하고, 전혀 그렇지 않을 수도 있다는 점을 단적으로 보여주고 있다. 또, 런던의 콜레라 전염병을 분석한 자료와 같이 데이터를 시각적으로 잘 활용하여 분석할 경우, 새로운 사고를 가능하게 하는 분석의 틀을 제시할 수도 있다는 점을 명확하게 제시하고 있다.