본문 바로가기

오뚜기의 데이터 분석 이야기

[온라인 버즈 데이터 분석 사례]The sentiment on US Economy from Twitter

출처 : http://lifeanalytics.blogspot.com/2009/10/sentiment-on-us-economy-from-twitter.html

economy 라는 키워드로 트윗 글 만 개를 수집해 분석했다고 함..
아래는 그 분석 결과 이미지...
사용자 삽입 이미지
 
확대 이미지 보기 --> http://4.bp.blogspot.com/_koDJi0ps7Mw/Su1reGXYLZI/AAAAAAAAAVA/BCysPbZ69zY/s1600-h/econ_webchart.jpg

[상기 그래프 보는 법]
good, better, advance 와 같은 긍정을 나타내는 단어들은 Positive Sentiment 로 분석
부정 단어들은 Negative Sentiment 로 분석
단어들 간에 선이 굵을 수록 연관성 높음

흥미로운 단어 간 연간 관계들을 발견할 수 있음..ex)
 NegativeSentiment 와 people, job, money, sales 간에 연관 관계 높음..

스팸 트윗, 우스개 트윗(Joke)는 삭제, Retweet 은 유지 (긍정 글을 retweet 한 사람은 긍정 성향으로 간주)

분석에 사용된 SW : GATE (트윗의 unstructured text 를 annotation - 주석 다는 기능) 및 SPSS Clementine (now PASW Modeller)

아래는 GATE의 설정 화면 (덕분에 GATE 라는 유용한 텍스트 마이닝 툴 정보 알게 됨)
사용자 삽입 이미지













확대 이미지 보기 --> http://3.bp.blogspot.com/_koDJi0ps7Mw/Su1lLULSBoI/AAAAAAAAAU4/KyyalN8Z12Q/s1600-h/econ_gate.JPG

긍부정 annotation(주석 달기)를 위해 JAPE라는 Rule 이 사용됐다고 함.

아래는 GATE를 돌려서 나온 Structured data 화면 예

사용자 삽입 이미지










확대 이미지 보기 --> http://4.bp.blogspot.com/_koDJi0ps7Mw/Su1s2rzSAfI/AAAAAAAAAVI/hj6yJ_-cafo/s1600-h/econ-table.JPG


와우... 심봤다...GATE 라는 텍스트 마이닝 툴 연구를 해봐야 할 듯 합니다...
http://gate.ac.uk/

GATE 에 대한 비디오 튜터리얼들 --> http://gate.ac.uk/demos/developer-videos/