'KoNLP' 태그의 글 목록

KoNLP

[R Project 03] 기업 이미지 파악을 위한 소비자 후기 키워드 분석 2018.04.20
[R Project 03-3] 명사 추출 및 카운팅 2018.04.20

[R Project 03] 기업 이미지 파악을 위한 소비자 후기 키워드 분석

2018. 4. 20. 11:33

[기업 이미지 파악을 위한 소비자 후기 키워드 분석]

(바로가기를 클릭하시면 해당 게시글로 넘어갑니다.)

Ⅰ 웹 페이지 크롤링

1. 크롬 드라이버 실행 (바로가기)

2. 웹 페이지 크롤링 (바로가기)

Ⅱ 키워드 추출

3. 명사 추출 및 카운팅 (바로가기)

저작자표시 비영리 변경금지

'R project > 03' 카테고리의 다른 글

[R Project 03-1] 크롬 드라이버 실행 (0)	2018.04.20
[R Project 03-2] 웹페이지 크롤링 (0)	2018.04.20
[R Project 03-3] 명사 추출 및 카운팅 (0)	2018.04.20

[R Project 03-3] 명사 추출 및 카운팅

2018. 4. 20. 11:33

# 3-1. 명사 추출

nount <- extractNoun(text_titles)

nounc <- extractNoun(text_contents)

head(nount, 3)

> head(nount, 3)

[[1]]

[1] "제주" "항공" "면접" "블라우스" "디테일" "구매" "하" "기"

[[2]]

[1] "제주" "항공" "JJ멤버스" "위크" "특가" "7" "월" "출발" "항공" "권"

[[3]]

[1] "조이버" "사이판" "갈" "제주" "항공" "타고" "할인" "혜택받"

head(nounc, 3)

> head(nounc, 3)

[[1]]

[1] "제주" "항공" "면접" "블라우스" "당신" "꿈"

[7] "날개" "면접" "복장" "전문" "드림윙즈입니다" "제주"

[13] "항공" "면접" "블라우스" "서류" "발표" "나"

[19] "면접" "준비" "기간" "짧" "기"

[[2]]

[1] "제주" "항공" "JJ" "멤버스" "위크" "7" "월" "출발" "항공권" "제주"

[11] "항공" "얼리버드" "특가" "JJ멤버스" "위크" "시작" "판매" "기간" "2018" "년"

[21] "3" "월" "7" "오전" "10" "시" "3" "월" "13" "일"

[31] "출발" "기간" "2018" "년"

[[3]]

[1] "제주" "항공" "사" "이" "판" "혜택" "들이" "제주"

[9] "항공" "사" "이" "판" "켄싱턴" "호텔" "숙박" "하"

[17] "객실료1박당" "20" "불" "인"

명사 추출을 위해서 'KoNLP'에 있는 'useNIADic()'을 사용하였습니다. 또한 n행 1열의 데이터 프레임 형태로 만들어 주기 위해 아래와 같이 'for문'을 이용하였습니다.

df_nount <- NULL

df_nounc <- NULL

for (i in 0:9){

df_nount_b <- as.data.frame(nount[i+1])

names(df_nount_b) <- c('keywords')

df_nount <- rbind(df_nount, df_nount_b)

df_nounc_b <- as.data.frame(nounc[i+1])

names(df_nounc_b) <- c('keywords')

df_nounc <- rbind(df_nounc, df_nounc_b)

}

jkeywords <- rbind(df_nount, df_nounc)

head(jkeywords)

> head(jkeywords)

keywords

1 제주

2 항공

3 국제

4 선

5 파일럿

6 기내식

# 3-2. 카운팅 (빈도 확인)

추출된 키워드는 'group_by'를 이용해 동일 키워드를 기준으로 묶고 'summarise'와 'n()'을 사용해 카운팅했습니다. 'order'를 이용하여 내림차순 정렬하면 빈도수가 높은 단어 순으로 확인할 수 있습니다.

jkeywords$keywords <- as.character(jkeywords$keywords)

count_key <- jkeywords %>% filter(nchar(keywords)>=2 & nchar(keywords)<=9) %>% group_by(keywords) %>% summarise(n=n())

keywords <- count_key[order(-count_key$n), ]

head(keywords, 10)

> head(keywords, 10)

# A tibble: 10 x 2

keywords n

1 제주 3174

2 항공 2913

3 여행 586

4 특가 302

5 항공권 301

6 이용 170

7 출발 164

8 항공우주 164

9 2018 138

10 시간 135

저작자표시 비영리 변경금지

'R project > 03' 카테고리의 다른 글

[R Project 03] 기업 이미지 파악을 위한 소비자 후기 키워드 분석 (0)	2018.04.20
[R Project 03-1] 크롬 드라이버 실행 (0)	2018.04.20
[R Project 03-2] 웹페이지 크롤링 (0)	2018.04.20

PREV 1 NEXT

나르는 다루루

KoNLP

[R Project 03] 기업 이미지 파악을 위한 소비자 후기 키워드 분석

'R project > 03' 카테고리의 다른 글

[R Project 03-3] 명사 추출 및 카운팅

'R project > 03' 카테고리의 다른 글

+ Recent posts

티스토리툴바