지난 시간에는 텍스트마이닝이 뭔지, 데이터마이닝과는 어떤 차이가 있는지에 대해 살펴보았습니다.
파이썬에서 본격적으로 텍스트 데이터를 다루기 위해 필요한 패키지인 NTLK 패키지를 다운받는 방법에 대해서 설명드리도록 하겠습니다.
1. 파이썬 접속
파이썬이 기본적으로 설치되어 있어야 하며, 저는 주피터노트북 에디터에서 실행해보도록 하겠습니다.
파이썬 설치 관련 글 링크 : stat-cbc.tistory.com/6?category=892410
파이썬 아나콘다(주피터노트북) 설치 글 링크 : stat-cbc.tistory.com/7?category=892410
먼저 설치하고 오신 뒤에 파이썬을 실행해보겠습니다.
우선 가장 먼저 해야 할 일은 cmd (명령 프롬프트)에서 nltk 를 까는 일입니다. cmd 창을 열고 다음과 같은 명령어를 입력해주시면 됩니다.
cmd 창을 여는 방법은 윈도우> cmd 검색하시거나 키보드에서 윈도우키 + R 을 누르면 나오는 창인 실행 창에 cmd 를 검색하시면 실행하실 수 있습니다.
pip install nltk
저는 이미 깔려있기 때문에 already satisfied 라고 나오는데 깔려있지 않으신 분들은 막대 바가 이동하면서 깔리게 됩니다.
2. 파이썬에서 nltk 패키지 텍스트 다운받기
앞에서 패키지를 잘 설치하셨다면 이제 파이썬에서 nltk 패키지를 불러올 수 있습니다.
import nltk
를 실행하시면 아무런 결과도 나오지 않으시면 잘 실행된 것입니다.
그리고 여기서 끝이 아니라 nltk 패키지 안에 있는 corpus 등들을 다운받아야 합니다.
nltk.download()
를 입력하게 되면 새로운 창이 하나 뜨실 건데, 절대 이 창을 그냥 닫으시면 안됩니다.
그 창에서 다운을 받기 때문입니다.
이렇게 다운로더가 뜨게 되면 all 에 커서를 두시고 왼쪽 하단에 download 버튼을 누르시면 됩니다.
시간이 좀 오래 걸리니까 기다리시면서 다른 일을 하고 오셔도 좋을 것 같습니다.
그럼 오늘은 nltk 패키지를 다운받아보았습니다. 다음 시간 부터는 이 nltk 패키지로 텍스트마이닝을 해보도록 하겠습니다.
Reference.
참고 페이지 : www.nltk.org/book/
참고 서적 : Natural Language Processing with Python
오늘도 수고하셨습니다 CBC
'인공지능 > 텍스트마이닝' 카테고리의 다른 글
3. 텍스트마이닝을 위한 파이썬 기본 (0) | 2020.12.26 |
---|---|
1. 텍스트마이닝 개요 (0) | 2020.11.13 |
Comment