1. 텍스트마이닝 개요

오늘은 많은 분들이 관심 있으신 텍스트마이닝에 대해 알아보기 전 간단한 개요로 먼저 시작하려고 합니다. 

 

1. 데이터마이닝

우선 텍스트마이닝의 좀 더 큰 틀인 데이터마이닝에 대해 설명해보겠습니다.

정말 간단하게 말하면 텍스트 데이터에 데이터마이닝 기법을 적용하게 되는 것이 텍스트마이닝이라 할 수 있는데요. 

데이터마이닝 분석의 결과는 빅데이터를 형성하고 지배하는 법칙인 모델이 나오는 것입니다. 이러한 모델의 목표는 어떤 데이터에 대한 분류, 예측, 인식과 같은 Predict/Description 으로 구분되는 경우가 많습니다. 

 

데이터마이닝 분석의 이론적 토대에는 머신러닝(Machine Learning) 기계학습이 있습니다. 

머신러닝의 종류도 2가지가 있습니다.

1) 감독형 학습(Supervised Learning) 

- 자동분류(Classification) 

- 예측 모델(Prediction Model)의 도출

이 이에 속합니다. 

2) 비감독형 학습(Unsupervised Learning) 

- 클러스터링(Clustering), 연관규칙 마이닝(Association) 

- 설명 모델(Description Model) 의 도출

이 두 모델과는 조금 차이가 있는 모델들이 semi 모델들입니다. semi 모델들은 사람이 조금 덜 개입하는 모델입니다. 

3) Semi-Supervised Learning 

- For less supervision 

4) Semi-Supervised Clustering 

- For a little supervision 

 

그럼 이 4가지 모델의 개념에 대해서 좀 더 자세하게 알아보도록 하겠습니다.

 

2. Supervised Learning 지도학습

기본 개념 

 

- 일단 Supervised Learning 은 위의 그림처럼 label 값과 input값이 모두 있는 경우를 말합니다. 사실 올바른 지도를 하려면 답을 알고 있어야 하는데, 이렇게 답을 알고 있는 경우를 supervised 라고 합니다. 

- 우선 (a)와 (b) 처럼 Training 과 Prediction 으로 데이터를 두 부분으로 나누어 분석을 시행합니다. 이렇게 나누는 이유는가지고 있는 데이터로 만든 모델이 잘 구성되었는지 평가하기 위해 데이터 전체를  모두 모델 구성에 사용하는 것보다는 나우어 모델 구성/평가를 하는 것이 효율적이기 때문입니다. 

- Training부분에서는 input 과 label 을 함께 넣어서 모델을 형성하고 이 형성된 모델을 테스트(Prediction)하기 위해 (b)부분의 데이터 input 만 넣어서 label 이 잘 나오는지 확인하는 것입니다. 

- 여기서 Classifier model 은 Learning Algorithm 에 따라서 달라집니다. 

- 종류 

1) Decision Tree

2) Neural Networks 

3) Bayesian Statistics (Naive Bayes, Bayesian Networks) 

4) Instance-based Learning (K-Nearest Neighbor)

5) Support Vector Machine

6) Rough set theory

7) Meta-learning (ensemble : bagging, boosting, Expection-Maximization(EM) ) 

 

 

3. Unsupervised Learning 비지도 학습

- Unsupervised Learning 은 위의 그림에서 label 값은 없고 input값들만 있는 경우를 말합니다. 

- 종류

1) K-Means (위의 K-NN과는 다른 개념)

 

4. Text Mining

- 데이터마이닝과 텍스트마이닝의 차이 

구분 데이터마이닝  텍스트마이닝 
주요 대상 데이터 구조적데이터(structured data)를 대상 unstructured/semi-structured text documents 를 대상 
중요 기술   curse of dimensionality (차원의저주) 때문에 Feature Selection 기술이 중요
- Zipf's law, document frequency, chi-square statistics, mutual information
추가 기술과의 결합 필요    Natural Language Process 기술과 결합 
- linguistic, lexical, sementics techniques

 

- 기반 기술

1) Machine Learning

2) Information Retrieval 

3) Natural Language Processing

4) Statistical Learning

- 응용(Applications) 

1) Text Classification 

- Web page Indexing : Web dictionary-based Search Engine 에서 웹문서의 자동 분류 

2) Text Clustering 

- document clustering

Big text data 에 대한 조망 : document cluster 에 대한 description model 의 생성 > cluster 내 문서집합에서 주요 단어의 추출 

distance function 이 중요 

- word clustering

용도 : thesaurus 구축, word sense disambiguation 등 

2가지 방식 : corpus-based approach, Taxonomy-based approach

- text clustering : 검색 엔진 

3) Text(Information) Extraction

4) Text Association Rule Mining

- word associations

doc-id(문서id)  words
1 {w1, w2, w3}
2 {w1, w4}
3 {w1, w3}
4 {w2, w5, w6}

이렇게 문서안에 각각의 단어들이 등장했다고 했을 때 association rules 에 따르면 

w1 > w3 with 50%(2/4) support and 66%(2/3) confidence 

w3 > w1 with 50%(2/4) support and 100%(2/2) confidence 

를 갖는 것처럼 단어 간 관계를 찾는 기법 

5) Document Retrieval (Search)

6) Document Recommendation

7) Topic Detection

8) Text Summarization 

 

 

 

Reference

1. Natural Language Processing with Python, Steven Bird, Ewan Klein, and Edward Loper

728x90
반응형