자신의 일은 스스로하자

[2차 프로젝트] #2 프로젝트_머신러닝 기반 웹툰 성공 예측 [광주인공지능학원] 본문

프로젝트

[2차 프로젝트] #2 프로젝트_머신러닝 기반 웹툰 성공 예측 [광주인공지능학원]

힐파르 사막 삼계탕 2021. 9. 13. 06:15
728x90


광주인공지능학원 스마트인재 개발원에서 진행한 2차 프로젝트입니다.

2021.09.13 - [분류 전체보기] - [2차 프로젝트] #1 프로젝트_머신러닝 기반 웹툰 성공 예측 [광주인공지능학원]

[2차 프로젝트] #1 프로젝트_머신러닝 기반 웹툰 성공 예측 [광주인공지능학원]

광주인공지능학원 스마트인재개발원에서 진행한 2차 프로젝트 내용입니다. 이번에는 광주인공지능학원 스마트인재개발원에서 진행한 2차 프로젝트에 대해서 포스팅하겠습니다. 2차 프로젝트

oneself.tistory.com


위 포스팅과 이어집니다.


이번 포스팅은 광주인공지능학원 스마트인재개발원에서 진행한 2차 프로젝트 결과물입니다.
이전 포스팅을 보고 오시면 이해가 빠르게 될 수 있습니다.


수집하고 전 처리한 댓글을 분석하는 과정으로 KOSAC 사전을 이용하여 긍정, 부정 댓글을 분류하였습니다. 분류가 잘 되지 않았기 때문에 수기로 긍정, 부정 라벨링을 작성하였고, 예측률이 67%가 나왔고 수기로 작성한 라벨링 데이터가 적다는 결과를 가져왔습니다.
3번째로 긍정, 부정 단어 사전을 작성하였습니다. 긍정, 부정, 중도 3 분류를 통해 직접 사저 작성을 하였고, 단어 사전을 정답 라벨로 만들어 이를 기반으로 예측하였습니다.


이후 머신러닝 과정을 진행하였습니다. 머신러닝 모델은 Random Forest를 사용하였으며 하이퍼 파라미터의 max_depth는 17로 설정하였습니다. Test, Train 결과 교차 검증 ( train, cv = 5 : 0.857 / test, cv = 5 : 0.817 ) Test Score 0.882로 나왔습니다.
특성 칼럼 및 중요도는 회 차, 조회수, 별 점, 별 점 참여인원수, 좋아요 수, 댓글 수, 조회수 대비 별점 참여 임원 수, 조회수 대비 좋아요 수, 긍정 댓글 비율, 부정 댓글 비율입니다.


위의 결과로 성능평가 지표입니다.
정확도 : 0.873758865248227
재현율 : 0.7732342007434945
정밀도 : 0.8813559322033898
F1 점수 : 0.8237623762376237


저희 서비스의 유스 케이스로 승격 확률 예측, 후원/댓들, 컨설팅, 고객센터, 공지사항을 지원합니다.


서비스 흐름도로 사용자(작가) 기준으로 사이트를 접속하면 java servlets으로 이어지고 웹툰의 url을 입력하면 flask로 이어집니다. 크롤링으로 웹툰 정보를 수집하고 머신러닝을 통해 정식 확률을 예측하고 다시 java servlets에서 정식 연재 확률을 db에 저장합니다.


저희 서비스의 기대효과 및 향후 발전으로 기대효과는 후원으로 예비작가를 지원하는 것입니다. 14만 웹툰 작가 지망 중 생활고로 13만 명이 포기합니다. 이런 일이 줄어들도록 저희 페이지의 후원 기능을 활용하여 작가 지망생을 응원합니다. 또한 후원금과 응원 메시지로 작가에게 연재할 수 있는 동기를 부여합니다. 후원으로 작가들이 웹툰에 투자하는 시간이 증가하며 생활고로 인해 웹툰에 투자하는 시간이 줄어든 작가들이 연재에 집중하도록 도움을 줍니다.
이렇게 2차 프로젝트를 마무리하였고 광주인공지능학원 스마트인재개발원의 2차 팀원분들에게 감사합니다! 또한 이러한 프로젝트를 진행할 수 있게 가르쳐주신 광주인공지능학원 스마트인재개발원의 선생님들에게도 감사합니다.


광주인공지능학원에서 진행된 수업입니다.

http://www.smhrd.or.kr

스마트인재개발원

4차산업혁명시대를 선도하는 빅데이터, 인공지능, 사물인터넷 전문 '0원' 취업연계교육기관

www.smhrd.or.kr

728x90