본문 바로가기
Project

[R stdio] 영화 별 감상 키워드 Word Cloud(워드 클라우드) 만들기 - 2

by 배애앰이 좋아 2020. 5. 30.
반응형

데이터 시각화를 위한 world cloud

 

저번에는 4차 산업 관련 어떤 키워드가 인기가 있는 지를 뉴스 페이지를 통해 world cloud를 만들어 보았습니다.

하지만 최종 결과를 보며 생각보다 결과가 잘 나오지 않는 것을 알 수 있었습니다.

이렇게 결과가 별로 안 나온 이유는 활용한 기본 데이터 부족 및 좋은 데이터가 아니라고 생각하였고 이번에는 데이터가 많은 데이터를 이용하여 다른 주제로 해볼까 합니다.

 

선택한 새로운 주제 => 영화 별 감상 키워드 world cloud

 

제가 선택한 영화는 비교가 되게 장르가 다르고 다들 한번 쯤은 알만한 영화를 골랐습니다.

1) The Avengers

2) 레미제라블

 

사실은 제가 재밌게 본 영화입니다. 아래는 참고한 사이트 링크입니다. 

RStduio에서 한글로 할려면 뭔가 더 설치를 해야해서 영어로 선택하였고 해외 리뷰 사이트를 이용하였습니다.

 

https://www.imdb.com/title/tt0848228/reviews?ref_=tt_ql_3

 

The Avengers (2012) - IMDb

The Avengers (2012) on IMDb: Movies, TV, Celebs, and more...

www.imdb.com

https://www.imdb.com/title/tt1707386/reviews?ref_=tt_ql_3

 

Les Misérables (2012) - IMDb

Les Misérables (2012) on IMDb: Movies, TV, Celebs, and more...

www.imdb.com

 

아래는 작성 코드입니다.

 

install.packages("wordcloud")
install.packages("SnowballC")
install.packages("tm")
install.packages("XML")
install.packages("httr")
library(wordcloud)
library(RColorBrewer)
library(XML)
library(httr)
library(tm)
web<-GET("https://www.imdb.com/title/tt0848228/reviews?ref_=tt_ql_3")
doc<-htmlParse(web)
news<-xpathSApply(doc, "//*[@id='main']//div[1]/div[3]/div", xmlValue)
news
corpus<-Corpus(VectorSource(news))
corpus<-tm_map(corpus, tolower) 
corpus<-tm_map(corpus,removeWords, stopwords("english")) 
corpus<-tm_map(corpus,removeNumbers)
corpus<-tm_map(corpus, removeFunctuation)
corpus<-tm_map(corpus, stemDocument, language="english")
corpus<-tm_map(corpus, stripWhitespace)
ktm<-DocumentTermMatrix(corpus)
findFreqTerms(ktm, 8)
w<-as.matrix(ktm)
wordFreq<-colSums(w)
wordFreq
wordcloud(words = names(wordFreq), freq = wordFreq, random.color = T, colors = rainbow(7))

 

결과 이미지 :

1) The Avengers

 

 

2) 레미제라블

 

 

레미제라블에서는 music, sing, helpful, stage, perform, actor, familiar, brilliant
어벤져스에서는 superhero, marvel, action, comic, captain, man, enhoy, charact


위와 같은 키워드가 나오는 것을 확인할 수 있었습니다. 물론 movie, film, review 같은 영화평이
아닌 키워드들이 나오기도 하였고 잘린 단어들도 나오기도 하였지만 그럼에도 전체적인 키워드들이
영화가 가지고 있는 장르, 분위기, 중요 인물, 핵심 내용들을 포함하고 있는 점을 확인할 수 있었습니다.

어떻게 보면 전에 비해 결과가 잘 나온 것 같습니다. 나중에 창업할 때나 상황 분석할 때 사용하기 좋은 것 같습니다.

RStudio을 한다면 재밌게 할만한 project인 것 같습니다. 

반응형

댓글