데이터 시각화를 위한 world cloud
저번에는 4차 산업 관련 어떤 키워드가 인기가 있는 지를 뉴스 페이지를 통해 world cloud를 만들어 보았습니다.
하지만 최종 결과를 보며 생각보다 결과가 잘 나오지 않는 것을 알 수 있었습니다.
이렇게 결과가 별로 안 나온 이유는 활용한 기본 데이터 부족 및 좋은 데이터가 아니라고 생각하였고 이번에는 데이터가 많은 데이터를 이용하여 다른 주제로 해볼까 합니다.
선택한 새로운 주제 => 영화 별 감상 키워드 world cloud
제가 선택한 영화는 비교가 되게 장르가 다르고 다들 한번 쯤은 알만한 영화를 골랐습니다.
1) The Avengers
2) 레미제라블
사실은 제가 재밌게 본 영화입니다. 아래는 참고한 사이트 링크입니다.
RStduio에서 한글로 할려면 뭔가 더 설치를 해야해서 영어로 선택하였고 해외 리뷰 사이트를 이용하였습니다.
https://www.imdb.com/title/tt0848228/reviews?ref_=tt_ql_3
https://www.imdb.com/title/tt1707386/reviews?ref_=tt_ql_3
아래는 작성 코드입니다.
install.packages("wordcloud")
install.packages("SnowballC")
install.packages("tm")
install.packages("XML")
install.packages("httr")
library(wordcloud)
library(RColorBrewer)
library(XML)
library(httr)
library(tm)
web<-GET("https://www.imdb.com/title/tt0848228/reviews?ref_=tt_ql_3")
doc<-htmlParse(web)
news<-xpathSApply(doc, "//*[@id='main']//div[1]/div[3]/div", xmlValue)
news
corpus<-Corpus(VectorSource(news))
corpus<-tm_map(corpus, tolower)
corpus<-tm_map(corpus,removeWords, stopwords("english"))
corpus<-tm_map(corpus,removeNumbers)
corpus<-tm_map(corpus, removeFunctuation)
corpus<-tm_map(corpus, stemDocument, language="english")
corpus<-tm_map(corpus, stripWhitespace)
ktm<-DocumentTermMatrix(corpus)
findFreqTerms(ktm, 8)
w<-as.matrix(ktm)
wordFreq<-colSums(w)
wordFreq
wordcloud(words = names(wordFreq), freq = wordFreq, random.color = T, colors = rainbow(7))
결과 이미지 :
1) The Avengers
2) 레미제라블
레미제라블에서는 music, sing, helpful, stage, perform, actor, familiar, brilliant
어벤져스에서는 superhero, marvel, action, comic, captain, man, enhoy, charact
위와 같은 키워드가 나오는 것을 확인할 수 있었습니다. 물론 movie, film, review 같은 영화평이
아닌 키워드들이 나오기도 하였고 잘린 단어들도 나오기도 하였지만 그럼에도 전체적인 키워드들이
영화가 가지고 있는 장르, 분위기, 중요 인물, 핵심 내용들을 포함하고 있는 점을 확인할 수 있었습니다.
어떻게 보면 전에 비해 결과가 잘 나온 것 같습니다. 나중에 창업할 때나 상황 분석할 때 사용하기 좋은 것 같습니다.
RStudio을 한다면 재밌게 할만한 project인 것 같습니다.
'Project' 카테고리의 다른 글
[unity] sound project - 4 days (0) | 2020.07.03 |
---|---|
[mfc] edit control - 줄바꿈, 스크롤 설정 하기, 텍스트 넣기, 가져오기 (0) | 2020.06.05 |
[R stdio] Word Cloud(워드 클라우드) 만들기 - 1 (0) | 2020.05.25 |
[unity] sound project - 3 days (0) | 2020.05.25 |
[유니티 / 게임 개발] 오브젝트 그라데이션(스펙트럼) 색깔로 바꿔주기 (0) | 2020.05.10 |
댓글