Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

saemi; split colab code #1

Open
wants to merge 1 commit into
base: main
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Binary file added SA_lr_best.pkl
Binary file not shown.
Binary file added __pycache__/add_label.cpython-310.pyc
Binary file not shown.
Binary file added __pycache__/read_news.cpython-310.pyc
Binary file not shown.
77 changes: 77 additions & 0 deletions add_label.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,77 @@
# pip install konlpy
import re
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
import pandas as pd

nsmc_train_df = pd.read_csv('./ratings_train.txt', encoding='utf8', sep='\t', engine='python')
nsmc_train_df.head()

nsmc_train_df = nsmc_train_df[nsmc_train_df['document'].notnull()]

# 부정 0 긍정 1
nsmc_train_df['label'].value_counts()
nsmc_train_df['document'] = nsmc_train_df['document'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ가-힣]+', " ", x))
# nsmc_train_df.head()

nsmc_test_df = pd.read_csv('./ratings_test.txt', encoding='utf8', sep='\t', engine='python')
# nsmc_test_df.head()
nsmc_test_df = nsmc_test_df[nsmc_test_df['document'].notnull()]
# print(nsmc_test_df['label'].value_counts())
nsmc_test_df['document'] = nsmc_test_df['document'].apply(lambda x : re.sub(r'[^ ㄱ-ㅣ가-힣]+', "", x))


okt = Okt()

def okt_tokenizer(text):
tokens = okt.morphs(text)
return tokens


tfidf = TfidfVectorizer(tokenizer = okt_tokenizer, ngram_range=(1,2), min_df=3, max_df=0.9)
tfidf.fit(nsmc_train_df['document'])
nsmc_train_tfidf = tfidf.transform(nsmc_train_df['document'])
# print('*** TF-IDF 기반 피처 벡터 생성 ***')

SA_lr = LogisticRegression(random_state = 0)
SA_lr.fit(nsmc_train_tfidf, nsmc_train_df['label'])

params = {'C': [1, 3, 3.5, 4, 4.5, 5]}
SA_lr_grid_cv = GridSearchCV(SA_lr, param_grid=params, cv=3, scoring='accuracy', verbose=1)
SA_lr_grid_cv.fit(nsmc_train_tfidf, nsmc_train_df['label'])
# print(SA_lr_grid_cv.best_params_, round(SA_lr_grid_cv.best_score_, 4))

# 최적 파라미터의 best 모델 저장
SA_lr_best = SA_lr_grid_cv.best_estimator_

# 5~10분정도 소요
# 평가용 데이터의 피처 벡터화 : 실행시간 6분 정도 걸립니다 ☺
nsmc_test_tfidf = tfidf.transform(nsmc_test_df['document'])
# print('*** 평가용 데이터의 피처 벡터화 ***')

test_predict = SA_lr_best.predict(nsmc_test_tfidf)
print('감성 분석 정확도 : ', round(accuracy_score(nsmc_test_df['label'], test_predict), 3))


kakao_news_title_date = pd.read_csv('kakao_news_title_date.csv')
kakao_stock_open_change = pd.read_csv('kakao_stock_open_change.csv')


# 1) 분석할 데이터의 피처 벡터화 ---<< title >> 분석
data_title_tfidf = tfidf.transform(kakao_news_title_date['title'])
# 2) 최적 파라미터 학습모델에 적용하여 감성 분석
data_title_predict = SA_lr_best.predict(data_title_tfidf)
# 3) 감성 분석 결과값을 데이터 프레임에 저장
kakao_news_title_date['title_label'] = data_title_predict

kakao_news_title_date.rename(columns={'date':'Date'},inplace=True)
kakao_news_title_date['Date'] = pd.to_datetime(kakao_news_title_date['Date'])
kakao_stock_open_change['Date'] = pd.to_datetime(kakao_stock_open_change['Date'])

kakao_newslabel_match_openchange = pd.merge(kakao_news_title_date, kakao_stock_open_change, on='Date')


kakao_newslabel_match_openchange.to_csv('kakao_newslabel_match_openchange.csv',encoding='utf-8-sig',index=True)
50 changes: 50 additions & 0 deletions kakao_news_title_date.csv
Original file line number Diff line number Diff line change
@@ -0,0 +1,50 @@
,title,date
0,"카카오모빌리티, ‘2024년 자율주행 인공지능 챌린지’ 개최",2024.08.27
1,"카카오커머스, 추석 맞이 ‘강추위크’ 진행",2024.08.26
2,"카카오, ‘제12회 브런치북 출판 프로젝트’ 개최",2024.08.26
3,카카오브레인 역사 속으로…디케이테크인에 흡수합병,2024.08.23
4,"'티메프 여파'…카카오, 본죽·할리스 기프티콘 환불",2024.08.23
5,"'티메프 여파' 카카오 선물하기, 엠트웰브와 계약 해지…'할리스·본죽' 등 기프티콘 환불",2024.08.23
6,"카카오모빌리티, 제천 레스트리 리솜 리조트에 로봇 배송 서비스 ‘브링’ 도입",2024.08.21
7,"""내가 받은 기프티콘도 못 쓰는 거 아냐?"" '티메프 사태' 불똥 카카오 선물하기까지 튀었다",2024.08.20
8,"카카오, '대한민국 한 바퀴 챌린지' 도전자 모집",2024.08.19
9,"카카오 ""카톡·AI 집중""…헤어샵 등 사업 정리",2024.08.18
10,"카카오게임즈, ‘2024 유스 e-스포츠 페스티벌’ 장학금 및 물품 후원",2024.08.16
11,"""카톡 사칭 사기 막는다""…카카오, '페이크 시그널' 기능 도입",2024.08.14
12,"""국민 신뢰·사랑 받을 것""…카카오, 공정거래 자율준수 프로그램 도입",2024.08.14
13,"카카오, 카카오톡에 ‘페이크 시그널’ 기능 도입",2024.08.14
14,"카카오게임즈, 오션드라이브 신작 '로스트 아이돌론스'·'섹션13' 퍼블리싱 계약",2024.08.13
15,"카카오엔터, 반년새 불법물 2억7000만건 삭제…불법사이트도 폐쇄",2024.08.13
16,"카카오모빌리티, 택시 기사 가족 대상 코딩 교육 캠프 ‘주니어랩 2기’ 진행",2024.08.12
17,"카카오, 단골시장 ‘우수시장 조성’ 발대식",2024.08.09
18,카톡처럼…카카오 '대화형AI' 연내 출시,2024.08.08
19,"카카오 ""카톡·AI 관련 없으면 비핵심 사업…하반기 효율화 작업 속도감 있게 진행""",2024.08.08
20,"카카오 ""하반기 B2C 기반 대화형 AI 서비스 선보일 것""",2024.08.08
21,"카카오모빌리티, 현대엘리베이터와 ‘로봇플랫폼·승강기 연동 표준 기반 서비스 고도화’ MOU",2024.08.08
22,카카오 2분기 영업익 1340억원…전년 比 18%↑,2024.08.08
23,"카카오, ‘2024 카카오 클래스’ 심화과정 참가자 모집 ?",2024.08.07
24,"카카오게임즈 ""3분기부터 비핵심 사업·프로젝트 정리…기업가치 제고 최우선""",2024.08.07
25,카카오표 DX 과외 '단골거리' 소상공인 디지털 소외 지웠다,2024.08.07
26,"카카오게임즈, 2700억원 규모 교환사채 발행",2024.08.06
27,"카카오, 스타벅스와 업무협약…톡학생증 전용 혜택 확대",2024.08.06
28,"카카오같이가치, ‘815를 기억하는 모두의행동' 이벤트",2024.08.06
29,"카카오헬스케어, 글로벌 ‘연구 협력 네트워크’ 17개 병원으로 확대",2024.08.05
30,"'라춘도 쬬비치'에서 물놀이를…카카오, 2024 서울썸머비치 참여",2024.08.02
31,"MS사태 재현 막으려면…카카오엔터프라이즈 ""멀티·소버린 도입"" 제시",2024.08.01
32,"""일상서 필요한 장소 정보 쉽고 빠르게""…카카오맵, 장소상세 서비스 개편",2024.08.01
33,"카카오게임즈, RTS 스톰게이트 얼리액세스 출시…스타2·워크3 제작진 개발 게임",2024.07.31
34,티메프 사태에 네이버웹툰·카카오페이지 해피머니 결제 막혀,2024.07.26
35,"카카오 비상경영…정신아, 총수 공백 메운다",2024.07.25
36,"전국 날씨를 한눈에…카카오, '다음 날씨 서비스' 새 단장",2024.07.25
37,[속보] 카카오 비상경영체제 돌입…정신아 대표가 경영쇄신위원장 대행,2024.07.25
38,"'인재·신사업·본원 경쟁력' 강화…카카오, 제2혁신 나서야",2024.07.24
39,"카카오 ""경영공백 최소화""…정신아 역할 커진다",2024.07.23
40,"檢, 시세조종 외 3개 수사도 속도…카카오 '성장시계' 멈춘다",2024.07.23
41,쿠팡도 통신장애 관리 의무 진다…카카오는 데이터센터 규제,2024.07.23
42,카카오 김범수 구속 심사…취재진 질문에는 침묵,2024.07.22
43,"""사법 리스크에 발목""…카카오 AI혁신 위기",2024.07.21
44,"카카오헬스케어 혈당관리 앱, 삼성·애플 건강앱과 연동",2024.07.20
45,"카카오모빌리티, 국제교통포럼과 '기업협력이사회 멤버십 연장' 업무협약",2024.07.19
46,"카카오 김범수 ""시세조종 혐의 사실 아냐…불법행위 용인한적 없어""",2024.07.18
47,카카오톡 접속 오류…고용24·워크넷·고용보험은 먹통,2024.07.18
48,"구속 기로에 선 김범수…카카오, 경영쇄신·신사업 '시계제로'",2024.07.17
47 changes: 47 additions & 0 deletions kakao_newslabel_match_openchange.csv
Original file line number Diff line number Diff line change
@@ -0,0 +1,47 @@
,Unnamed: 0,title,Date,title_label,Open,Change
0,0,"카카오모빌리티, ‘2024년 자율주행 인공지능 챌린지’ 개최",2024-08-27,0,38650.0,1100.0
1,1,"카카오커머스, 추석 맞이 ‘강추위크’ 진행",2024-08-26,1,37550.0,100.0
2,2,"카카오, ‘제12회 브런치북 출판 프로젝트’ 개최",2024-08-26,0,37550.0,100.0
3,3,카카오브레인 역사 속으로…디케이테크인에 흡수합병,2024-08-23,1,37450.0,550.0
4,4,"'티메프 여파'…카카오, 본죽·할리스 기프티콘 환불",2024-08-23,0,37450.0,550.0
5,5,"'티메프 여파' 카카오 선물하기, 엠트웰브와 계약 해지…'할리스·본죽' 등 기프티콘 환불",2024-08-23,0,37450.0,550.0
6,6,"카카오모빌리티, 제천 레스트리 리솜 리조트에 로봇 배송 서비스 ‘브링’ 도입",2024-08-21,0,36500.0,-400.0
7,7,"""내가 받은 기프티콘도 못 쓰는 거 아냐?"" '티메프 사태' 불똥 카카오 선물하기까지 튀었다",2024-08-20,0,36900.0,250.0
8,8,"카카오, '대한민국 한 바퀴 챌린지' 도전자 모집",2024-08-19,0,36650.0,-650.0
9,10,"카카오게임즈, ‘2024 유스 e-스포츠 페스티벌’ 장학금 및 물품 후원",2024-08-16,1,37300.0,650.0
10,11,"""카톡 사칭 사기 막는다""…카카오, '페이크 시그널' 기능 도입",2024-08-14,0,36650.0,-300.0
11,12,"""국민 신뢰·사랑 받을 것""…카카오, 공정거래 자율준수 프로그램 도입",2024-08-14,1,36650.0,-300.0
12,13,"카카오, 카카오톡에 ‘페이크 시그널’ 기능 도입",2024-08-14,0,36650.0,-300.0
13,14,"카카오게임즈, 오션드라이브 신작 '로스트 아이돌론스'·'섹션13' 퍼블리싱 계약",2024-08-13,0,36950.0,-150.0
14,15,"카카오엔터, 반년새 불법물 2억7000만건 삭제…불법사이트도 폐쇄",2024-08-13,0,36950.0,-150.0
15,16,"카카오모빌리티, 택시 기사 가족 대상 코딩 교육 캠프 ‘주니어랩 2기’ 진행",2024-08-12,0,37100.0,-1800.0
16,17,"카카오, 단골시장 ‘우수시장 조성’ 발대식",2024-08-09,0,38900.0,-50.0
17,18,카톡처럼…카카오 '대화형AI' 연내 출시,2024-08-08,1,38950.0,1650.0
18,19,"카카오 ""카톡·AI 관련 없으면 비핵심 사업…하반기 효율화 작업 속도감 있게 진행""",2024-08-08,0,38950.0,1650.0
19,20,"카카오 ""하반기 B2C 기반 대화형 AI 서비스 선보일 것""",2024-08-08,0,38950.0,1650.0
20,21,"카카오모빌리티, 현대엘리베이터와 ‘로봇플랫폼·승강기 연동 표준 기반 서비스 고도화’ MOU",2024-08-08,1,38950.0,1650.0
21,22,카카오 2분기 영업익 1340억원…전년 比 18%↑,2024-08-08,1,38950.0,1650.0
22,23,"카카오, ‘2024 카카오 클래스’ 심화과정 참가자 모집 ?",2024-08-07,0,37300.0,550.0
23,24,"카카오게임즈 ""3분기부터 비핵심 사업·프로젝트 정리…기업가치 제고 최우선""",2024-08-07,0,37300.0,550.0
24,25,카카오표 DX 과외 '단골거리' 소상공인 디지털 소외 지웠다,2024-08-07,0,37300.0,550.0
25,26,"카카오게임즈, 2700억원 규모 교환사채 발행",2024-08-06,0,36750.0,-2800.0
26,27,"카카오, 스타벅스와 업무협약…톡학생증 전용 혜택 확대",2024-08-06,0,36750.0,-2800.0
27,28,"카카오같이가치, ‘815를 기억하는 모두의행동' 이벤트",2024-08-06,1,36750.0,-2800.0
28,29,"카카오헬스케어, 글로벌 ‘연구 협력 네트워크’ 17개 병원으로 확대",2024-08-05,0,39550.0,50.0
29,30,"'라춘도 쬬비치'에서 물놀이를…카카오, 2024 서울썸머비치 참여",2024-08-02,1,39500.0,150.0
30,31,"MS사태 재현 막으려면…카카오엔터프라이즈 ""멀티·소버린 도입"" 제시",2024-08-01,0,39350.0,100.0
31,32,"""일상서 필요한 장소 정보 쉽고 빠르게""…카카오맵, 장소상세 서비스 개편",2024-08-01,1,39350.0,100.0
32,33,"카카오게임즈, RTS 스톰게이트 얼리액세스 출시…스타2·워크3 제작진 개발 게임",2024-07-31,0,39250.0,-350.0
33,34,티메프 사태에 네이버웹툰·카카오페이지 해피머니 결제 막혀,2024-07-26,0,40550.0,1200.0
34,35,"카카오 비상경영…정신아, 총수 공백 메운다",2024-07-25,0,39350.0,850.0
35,36,"전국 날씨를 한눈에…카카오, '다음 날씨 서비스' 새 단장",2024-07-25,1,39350.0,850.0
36,37,[속보] 카카오 비상경영체제 돌입…정신아 대표가 경영쇄신위원장 대행,2024-07-25,0,39350.0,850.0
37,38,"'인재·신사업·본원 경쟁력' 강화…카카오, 제2혁신 나서야",2024-07-24,1,38500.0,-2000.0
38,39,"카카오 ""경영공백 최소화""…정신아 역할 커진다",2024-07-23,0,40500.0,-850.0
39,40,"檢, 시세조종 외 3개 수사도 속도…카카오 '성장시계' 멈춘다",2024-07-23,0,40500.0,-850.0
40,41,쿠팡도 통신장애 관리 의무 진다…카카오는 데이터센터 규제,2024-07-23,0,40500.0,-850.0
41,42,카카오 김범수 구속 심사…취재진 질문에는 침묵,2024-07-22,0,41350.0,450.0
42,45,"카카오모빌리티, 국제교통포럼과 '기업협력이사회 멤버십 연장' 업무협약",2024-07-19,1,40900.0,100.0
43,46,"카카오 김범수 ""시세조종 혐의 사실 아냐…불법행위 용인한적 없어""",2024-07-18,0,40800.0,-150.0
44,47,카카오톡 접속 오류…고용24·워크넷·고용보험은 먹통,2024-07-18,0,40800.0,-150.0
45,48,"구속 기로에 선 김범수…카카오, 경영쇄신·신사업 '시계제로'",2024-07-17,0,40950.0,-1000.0
Loading