[도서] 빅데이터 인문학 : 떠오르는 단어와 사라지는 단어

반응형

빅데이터 인문학

몇년전부터 '빅데이터'라는 단어가 심심찮게 들리고 있다. 정확한 의미를 모른 채 지내오다가 우연히 도서관에서 '빅데이터' 관련 책들이 있는 것을 보았다. 여러 책들 중 이 책을 고른건 아래의 그래프가 눈에 확들어오고 흥미로워서였다.

 

할리우드브로드웨이, 좀비늑대인간.

내가 느끼기에도 브로드웨이와 늑대인간은 유행이 지난 단어이고, 할리우드와 (특히)좀비는 떠오르는 단어라고 생각하는데 그래프로 그 결과를 확인하니 재미있고 신기하다.

이 그래프는 구글 엔그램(https://books.google.com/ngrams)에 특정 단어를 넣어 검색한 것이다.

이 책은 이런 엔그램 그래프를 만들게 된 경위를 소개하면서 빅데이터의 흐름에 대해 얘기하고 있다.

 

 

빅데이터란?

문자그대로 수많은 데이터들을 모아놓은 것이다.

어떻게?

지금같은 시대에 인터넷에 글만써도 자동으로 데이터가 모인다. 물론 빅데이터도 이런것들을 포괄하는 말이겠지만 이 책에서는 출판된 책들의 데이터에 대한 설명만 하고 있다.

종이로 출판된 책들을 구글에서 디지털화하려는 프로젝트를 세웠고, 프로젝트를 시작한지 9년만에 3000만권이 넘는 책들을 디지털화했다고 한다. 그렇게 만든 빅데이터를 바탕으로 구글 엔그램이 나왔다.

엔그램 기법에 의하면 특정시기에 출판된 책들에서 '특정단어'가 얼마나 많이 나왔는지에 따라 그 시기에 사람들의 관심도, 유행을 알 수 있다. 여기에서 중요한건 단어의 '빈도수' 이다.  
빈도가 높을수록 사람들이 관심이 가지고 있었다는 거니깐.

 

그래서 책 초반에 이런 '빈도'의 중요성에 대해 설명하기 위해 영어의 '불규칙동사'에 대한 설명이 나오는데, 나는 이 책에서 이 부분이 가장 흥미로웠다. 뭔가 새로운 지식(?)을 알았다는 기분이 들었다.  

 

> "왜 우리는 drived(규칙동사)가 아니라 drove(불규칙동사)라고 말하나요?" (p.52)

 

> 불규칙 동사는 어디에서 왔을까?

1만 2000년전에서 6000년전 사이 어느 시점에서 프로토-인도-유러피안(Proto-Indo-European) 이라고 부르는 언어가 사용되기 시작했고 이 언어는 일정한 규칙에 따라 모음을 바꿔 어떤 단어를 그것과 관련된 다른 것으로 변환하는 시스템이었다. 이를 '모음전환'이라고 한다. 이 모음전환이 바로 지금의 불규칙동사 이다. (p.53)

그러다가 과거시제를 나타내기위해 -ed를 쓰는 방식 이 이후 등장했고, 이는 단순하고 기억하기 쉬워서 급속도로 퍼져나갔다. 약 1200년전 영어동사의 1/3 이 이 새로운 규칙을 따랐고, 이 규칙화라고 부르는 과정은 현재도 진행중이다.

(결론 : 규칙동사가 먼저 쓰인가 아니라 불규칙 동사 먼저!!! 쓰였다.)

 

> 어떤 불규칙동사가 사라진 반면 어떤 것은 살아남은걸까?  불규칙동사는 왜 그토록 빈도가 높은가?

 오랜시간이 지나면서 빈도가 낮은 불규칙동사는 탈락했고 그와 반대로 빈도가 높을수록(자주 사용될수록) 생존확률은 올라갔다. 그 결과 불규칙동사 전체적으로 빈도가 높아졌다.

be/was, have/had, do/did, say/said, go/went, geo/got, make/made, know/knew, see/saw, think/thought.

현재 영어에서 가장 빈도가 높은 동사가 여기에 속한다.

불규칙동사가 살아남은게 아니고 예전에 따랐던 패턴을 그대로 따르고 있는 것이다. 단지 자연선택의 과정처럼 자주 사용하는(빈도수 높은) 것들만 살아남고 나머지는 좀 더 쉽고 단순한 -ed로 진화했을 뿐이다.

 

이 글을 공유하기

댓글

Designed by JB FACTORY

◎유튜브 반응형 삽입 자바스크립트