2013년 2월 22일 금요일

[NYT] What Data Can’t Do 데이터가 할 수 없는 것 2013-02-18사설


Facebook Group: COBFP                                                                             2013-02-20
http://ilkcobfp.blogspot.com/                                                                             성남

[사설원본]                                                                                        [동아일보 번역본]

February 18, 2013

What Data Can’t Do
데이터가 없는

    오늘은 '세상에 완벽한 것은 없다'는 내용의 NYT 칼럼입니다. NYT 유명 칼럼니스트인 David Brooks가 '자료가 할 수 없는 것'이라는 제목으로 사람들이 과학적이라고 생각하는 데이터를 이용한 현상 분석 및 판단의 방법이 항상 객관적이고 옳은 것은 아니라며, 인간의 감성(감정, 인식)이 오히려 현상 혹은 사물을 이해하고 파악하는데 더 도움이 될 수 있다고 주장합니다. 결론은 data를 활용한 분석법이 어떤 것에는 좋고, 어떤 것에는 도움이 되지 못한다며 인간은 눈에 보이는 것 이외의 것을 항상 읽도록 노력할 필요성이 있다고 주장하고 있는 것 같습니다.

[전체요약]

    이탈리아에서 기업을 운영중인 미국 기업가가 최근 유로 존 재정위기 등으로 이탈리아에서 기업 철수를 검토했습니다. 객관적인 자료분석 결과에 의하면 이탈리아에서 철수가 타당했으나, 미국 기업가는 그 동안 이탈리아에서 오랫동안 영업을 해왔고, 이탈리아가 어려울 때 떠나면 기업 이익만 추구하는 나쁜 기업으로 인식된다는 판단 하에 일시적으로 손해를 보더라도 철수하지 않고 이탈리아에서 계속 영업을 하여 기업이 정상화되면서 올바른 판단을 했다고 생각하게 됩니다. (commerce depends on trust)

    상기 미국 기업 얘기를 소개하면서 data 분석의 약점을 아래와 같이 지적했습니다.

    data가 인간의 자만심(overconfidence in our own intuitions)을 보완해주고, 희망사항이 사실인식을 왜곡시키는 것을 막아주는 역할을 하나 아래와 같은 단점을 가지고 있습니다.

1. 컴퓨터 및 자료를 활용하여 사람들의 사회적 접촉을 분석할 경우, 사회적 접촉 빈도(quantity)는 탁월하나 실제 사회적 접촉의 질(quality)은 한계적입니다.

2. data는 맥락(context)을 이해하지 못합니다. 인간의 모든 결정을 별도로 결정하는 것이 아니라 상호 연관되어 모든 것을 결정하기 때문에 data만 가지고 인간의 결정을 이해하는 것은 불가합니다.

3. data가 많을수록 우리가 찾고자 하는 핵심내용을 찾기가 더 어렵습니다. 

4. 최근 경제위기 극복을 위한 재정확장 정책(stimulus)에 대해 많이 논의되나 어느 누구도 data에 의해 기존의 입장을 변경한 토론자는 없었습니다.

5. data는 원초적으로 raw(객관적)하지 않습니다. 그 data 조차 누군가의 가치관에 의해 1차 가공된 것입니다..

결론은 'Data is good at something and not at others, The world is much more interesting than any one discipline'으로 맺고 있네요. (any one discipline은 여기서 data를 지칭하는 것으로 세상은 한 가지 기준으로 모든 것을 판단할 수 없다는 의미도 되겠네요)

[전체번역]

    얼마 전, 대형 은행의 최고 임원과 저녁식사를 하였습니다. 그는 약한 경기와 미래에 유로 위기가 있을 수 있는 이탈리아에서 투자금을 뺄지 말지를 결정해야 했습니다.

    최고경영자는 그의 경제학자들에게 일련의 하강 시나리오를 전망하고, 이러한 전망이 회사에 어떤 의미가 있는지를 찾도록 지시하였습니다. (have, let + 목적어+ verb 구문으로서 have, let은 사역동사라고 하는데 해석은 목적어로 하여금 to verb하게 하다라는 의미 (get의 경우는 목적어 + to verb), verb의 주어가 목적어, 이 문장에서는 economists가 project out의 주어, 찾아낸 일련의 단점들과 그것들이 기업에 있어서 어떤 의미를 뜻하는지 계산한 것이 있습니다.) 하지만, 결국에 그는 가치관에 근거하여 그의 결정을 내렸습니다.

    그의 은행은 이탈리아에서 수십 년간 있었습니다(영업하였다는 의미). 그는 이탈리아 사람들이 자신의 기업을 자기 좋을 대로만 하는 친구로 생각하는 것을 원치 않았습니다. 그는 기업에 있는 사람들이 경기가 힘들어질 때 회사가 인원을 감축하고 도망간다고 생각하지 않기를 바랬습니다. 그는 이탈리아에 머물기로 결정했으며, 단기비용이 들더라도 잠재적 위기를 직면하기로(극복하기로) 했습니다.

    그는 결정을 내리는데 데이터를 의식하지 않을 수 없었지만 궁극적으로, 그는 다른 방식의 생각에 안내 받았습니다. 그리고, 당연히, 그는 올바른 결정을 하였습니다. (완전한 문장은 he was right to be guided---). 상업(장사, 거래)은 신뢰 여부에 달려있습니다. (depend on, rely on) 신뢰는 감정으로 이루어진 상호관계입니다. 힘든 시기에 올바르게 행동한 사람과 기업들은 데이터로 나타내기 힘들지만 매우 가치 있는 애착과 존경심을 얻습니다.

    제가 이 이야기를 하는 이유는 데이터의 장점과 한계를 말하기 때문입니다. 이 역사적인 순간의 큰 참신함은 우리의 생활이 데이터를 수집하는 컴퓨터에 의해 이뤄진다는 것입니다. 지금의 세상에서 데이터는 믿기 어려울 만큼 놀랍게 어려운 상황에 대한 감을 잡기 위해 쓰여질 수 있습니다. 데이터는 우리의 직감에 대한 과신을 보충(보완)하는데 도움을 주고, 욕망이 우리의 인식을 비틀 수 있는(왜곡할 수 있는) 정도를 줄여주는데 도움을 줍니다.

    하지만 빅데이터는 매우 부족한 면이 많습니다. 몇 개를 빠르게 간추려 봅시다.

    데이터는 사회성에 힘겨워 합니다. 당신의 두뇌는 수학에 약하지만(빨리, 루트 437을 계산하면 뭐죠?), 사회 인식에 대해선 완벽합니다. 사람들은 상대방의 감정을 읽고, 비협조적 태도를 인식하며, 감정을 통해 가치를 부여하는 것에 매우 유능합니다. (be good at 아주 잘한다는 의미) 

    컴퓨터가 내놓은 데이터 분석은, 다른 면으로 볼 때, 사회 상호 작용에 대한 수치를 측정하는데는 탁월하지만 질은 탁월하지 못합니다. 네트워크 과학자는 당신의 여섯 동료와 함께하는 날들 중76%의 시간을 같이 교류하는 상황을 알 수 있지만, 당신이 1년에 2번 보는 어렸을 적 친구에 대한 헌신은 찾아내지 못합니다. 단테가 두 번만 만났던 베아트리스에 대한 단테의 사랑은 말할 것도 없이 찾아내지 못합니다. (let alone은 말할 것도 없고 라는 의미로서 앞의 주장을 더 강조하기 위해 사용)

    그럼으로, 사회관계에 대한 결정을 내릴 때, 해골 안에 있는 놀라운 기계(뇌)를 책상에 있는 막된 기계(컴퓨터)로 바꾸는 것은 어리석은 일입니다.

    데이터는 맥락(전체 그림, big picture)을 이해하지 못합니다. 사람들의 결정은 별개의 이벤트가 아닙니다. 그것들은 연속적인 사건과 맥락 속에 있습니다. 사람 두뇌는 이 같은 현실을 고려하기 위해 발달 되어 왔습니다. 사람들은 여러 개의 원인과 여러 개의 전후 사정으로 짜인 이야기를 말하는 것에 능숙합니다. (사람은 종합적으로 생각한다는 의미) 데이터 분석은 묘사나 최근 생겨난 생각에 대해 잘 알지 못하며(나쁘며), 심지어(even) 평범한 소설의 설명과도 비교할 수 없습니다.

    데이터는 큰 건초더미를 만듭니다. 이 것은 Antifragile¡의 저자인 Nassim Taleb가 주장한 내용입니다. 우리가 더 많은 데이터를 가질 때, 우리는 통계적으로 더 확연한 관계를 찾을 수 있는 능력이 있습니다. 이 관계(통계적에서 나온 관계)는 우리가 어떤 상황을 이해하려고 할 때는 가짜이고 우리를 기만합니다. 허위는 우리가 데이터를 수집할 때마다 기하급수적으로 늘어납니다. 건초더미가 커질수록 우리가 찾으려고 하는 바늘은 여전히 깊은 곳 어디엔가에 있습니다.

    빅테이터 시대의 특징 중 하나는 ‘의미있는 발견’의 숫자(양)입니다. Nate Silver가 말하기를, 그 발견들은 소음(데이터)이 신호(큰 그림, 상황 이해)로의 확장하는 것을 의미하지는 않습니다. (뜻은 소음(데이터)이 모여도 신호(큰 그림, 상황)가 되지 않다는 의미로 보입니다. Nate Silver가 말하기를 빅데이터 시대의 하나의 기능은 소리의 잡음이 확장되지 않도록 중요한 것을 얼마나 찾느냐 입니다.) (이 문장 잘 모르겠습니다.)

    빅데이터는 큰 문제를 해결하지 못합니다. 만약 당신이 어떤 이메일이 (선거)캠페인에 제일 기여했는지를 찾아내고자 하면, 당신은 비차별적 실험통제를 하면 됩니다. 그러나 당신이 경기침체 때 경기 부양을 하려고 했다고 합시다. 당신은 통제 집단으로 이용할 다른 사회가 없습니다. 예를 들면, 우리는 최고의 경기부양 정책에 대해 산같이 쌓인 데이터와 함께 논쟁을 했습니다. 그리고 제가 알기론, 데이터에 의해 설득 당해 자신의 의견을 바꾼 토론자는 없습니다. 

    데이터는 걸작 보다 비유적인 문화 요소를 선호합니다. (favor A over B, B보다 A를 선호하다.) 데이터 분석으로 많은 사람들이 어떤 문화상품을 좋아하는 시기를 파악할 수 있습니다. 하지만 사람들은 아주 많은 중요하고, 상업성이 있는 문화상품들을 초기에 친근하지 않아 싫어합니다.

    데이터는 실제 가치가 불분명하게 합니다. 저는 최근 Raw data는 모순어법이다 라는 완벽한 제목을 가진 학술 서적을 보았습니다. 이 서적의 핵심내용중 하나는 데이터는 객관적이지 않다는 것입니다 ; 그 데이터들 조차 구조적으로 항상 어떤 사람의 성향과 가치에 기반되어 있습니다. 최종 결과물에 대해 관심이 없어 보이지만, 현실에서는, 가치 선택이 구조에서 해석까지 내제되어 있습니다. (연구를 함에 있어 최종 결과를 생각하면서 항상 데이터에 가치를 부여한다는 의미)

    빅데이터가 대단한 도구임에 논쟁하지 않습니다. 단지 다른 도구처럼 장점과 단점이 있다는 것입니다. Edward Tufte예일대 교수는 ‘세상은 어떤 1개의 규율(한 개의 진리, 지식)보다 훨씬 더 흥미롭다’라고 말했습니다.(세상을 한가지 시각으로 보지 말고, 여러가지 시각으로 세상을 보아라는 의미) 


댓글 없음:

댓글 쓰기