지난 시간에는 텍스트마이닝이 뭔지, 데이터마이닝과는 어떤 차이가 있는지에 대해 살펴보았습니다. 파이썬에서 본격적으로 텍스트 데이터를 다루기 위해 필요한 패키지인 NTLK 패키지를 다운받는 방법에 대해서 설명드리도록 하겠습니다. 1. 파이썬 접속 파이썬이 기본적으로 설치되어 있어야 하며, 저는 주피터노트북 에디터에서 실행해보도록 하겠습니다. 파이썬 설치 관련 글 링크 : stat-cbc.tistory.com/6?category=892410 [Day1. 파이썬 설치] 요즘 아주 핫하다 못해 데이터분석=파이썬이라고 생각할 정도로 많이 사용되고 있는 파이썬에 대해서 기초부터 알아보려고 합니다. 당연히 설치부터 분석까지 수행해 볼 예정입니다. 1. 파이썬 stat-cbc.tistory.com 파이썬 아나콘다(주피..
오늘은 많은 분들이 관심 있으신 텍스트마이닝에 대해 알아보기 전 간단한 개요로 먼저 시작하려고 합니다. 1. 데이터마이닝 우선 텍스트마이닝의 좀 더 큰 틀인 데이터마이닝에 대해 설명해보겠습니다. 정말 간단하게 말하면 텍스트 데이터에 데이터마이닝 기법을 적용하게 되는 것이 텍스트마이닝이라 할 수 있는데요. 데이터마이닝 분석의 결과는 빅데이터를 형성하고 지배하는 법칙인 모델이 나오는 것입니다. 이러한 모델의 목표는 어떤 데이터에 대한 분류, 예측, 인식과 같은 Predict/Description 으로 구분되는 경우가 많습니다. 데이터마이닝 분석의 이론적 토대에는 머신러닝(Machine Learning) 기계학습이 있습니다. 머신러닝의 종류도 2가지가 있습니다. 1) 감독형 학습(Supervised Learn..
Comment