텍스트마이닝에서 파이썬을 사용하기 위해 우선 파이썬의 기본에 대해 설명하겠습니다. 1. 파이썬이란? 1990년 암스테르담의 귀도 반 로섬이 개발한 인터프리터 언어로 구글에서 만들어진 소프트웨어의 많은 비중(50% 이상)이 Python 으로 개발되었다고 합니다. Python으로 개발된 프로그램의 예를 들면 Dango(무료 오픈소스 웹 애플리케이션 프레임워크)가 있습니다. +여기서 인터프리터 방식의 언어에 대해 설명해보자면 프로그램 방식에 따라서 언어를 구분하는 방식에 포함됩니다. 1) 컴파일러 방식 : 전체 코드를 번역해서 한 번에 실행해야 함 (예: C, JAVA) 2) 인터프리터 방식 : 한줄씩 코드를 번역해서 실행 가능 (Python, C++) 파이썬을 배우다보면 한 줄씩 코드를 실행하고 결과를 확인..
rtx3000번대가 출시된 이후 연이은 물량 부족에 시달리는 중이라고 합니다. 엄청난 성능 증가로 인해 다들 3000번대로 넘어오고 계실텐데요, 저도 이번에 RTX3090 을 얻게 되었습니다. 바쁜 일정에 계속 미루고 미루다 이제서야 GPU 셋팅을 하게 되었는데, 처음 3000번대가 나왔을 때는 tensorflow 와의 호환 문제가 있었다고 들었으나, 이제는 해소되었다고 해서 설치를 하게 되었습니다. 제가 설치한 과정을 자세하게 알려드리겠습니다. 1. 파이썬 아나콘다 설치 아나콘다는 가상환경을 만드는데 가장 많이 사용하는 프로그램으로, 저도 여기서 아나콘다로 가상환경을 만들도록 하겠습니다. 아나콘다 설치법은 제 블로그에도 포스팅 되어있으므로 아래 게시글을 참조해주세요 stat-cbc.tistory.com..
그럼 오늘은 깃허브에 관련된 설명을 시작해보도록 하겠습니다! 1. github란 무엇인가? R을 배우시거나 다른 프로그램을 좀 깊게 배우신 분들은 깃허브라는 이름을 들어보신 적이 있으실 겁니다. 들어보지 않았다? 하시는 분들도 오늘 처음 제가 말했으니 들어보신거죠! 깃허브라는 프로그램은 깃허브는 분산 버전 관리 툴인 깃을 사용하는 프로젝트를 지원하는 웹호스팅 서비스이다. 루비 온 레일스로 작성되었다. GitHub는 영리적인 서비스와 오픈소스를 위한 무상 서비스를 모두 제공한다. 2009년의 Git 사용자 조사에 따르면 GitHub는 가장 인기있는 Git 호스팅 사이트이다. 또한 2011년의 조사에서는 가장 인기있는 오픈 소스 코드 저장소로 꼽혔다. 출처: 위키백과 입니다. 이렇게 핫 한 프로그램? 웹 서..
R 만 주구장창 하다보니 Python 다 까먹어서 다시 시작하려 합니다. txt 데이터 파일의 입,출력 실제 데이터 분석에서는 파이썬 안에서 데이터를 만들어 쓰는 것보다 txt, csv 와 같은 외부형식의 데이터를 많이 사용하기 때문에 입,출력이 매우 중요 - 파일 열기 모드 아주 기본적이지만, 굉장히 중요함 r : 읽기 모드 - 파일을 읽을 때 사용. 이를 사용하면 원본 파일이 수정, 손상이 없음 w : 쓰기 모드 - 파일을 쓸 때 사용. 이를 데이터가 있는 파일에 사용하면 데이터가 초기화되서 전부 날아가는 사태가 발생할 수 있음. - 아직까지는 그런 적이 없어 다행 / 새로운 파일로 작성할 때만 사용! 읽는데는 사용하지 않는다고 보면 되는듯 a : 추가 모드 - 파일의 마지막에 새로운 내용을 추가할 ..
glob 는 python 안에 기본으로 내장되어 있는 패키지? x 모듈! 이다. 빅데이터 시대에 데이터가 많은 경우 이 glob 는 데이터 명들을 리스트 형태로 불러와 한 눈에 규칙성을 볼 수 있게 해주는 기능. 디렉토리 (내가 설정한) 안에 같은 확장자로 되어있는 파일을 보여준다. 특정한 문자열이 포함되어 있는 파일만도 추출할 수 있다니 R 에서도 이런 기능이 있었는데 너무 늦게 알았었다. A = glob.glob('원하는 문자열*.확장자')와 같은 형식으로 쓰ㅡ면 된다. 특정한 문자열 포함 파일은 공통된 문자열만 입력한 뒤에 다른 문자열이 나오면 *로 대체해주면 모두 읽히게 된다. 진짜 유용한 기능인듯. - glob 할 때 정렬 안되서 반환되면 다양한 순서로 정렬이 가능하다 filst = sorted..
리눅스 명령어 tar 형태 압축하기 tar -cvf [파일명.tar] [폴더명] 압축풀기 tar -xvf [파일명.tar] tar.gz 파일 형태 압축하기 $ tar -cvzf [파일명.tar.gz] [폴더명] 압축풀기 $ tar -xvzf [파일명.tar.gz] 원하는 위치에 압축 풀기 $ tar -xvzf [파일명.tar.gz] -C /[원하는 위치]
데이터파일(csv, xlsx 등)를 불러올 때 빈칸이 있을 경우에 대한 에러 Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : line 23 did not have 16 elements 와 같은 에러발생시 read.table("파일명.확장자" , sep = "분리자", header = TRUE, ...옵션 , fill = TRUE) 설정 read.csv("파일명.확장자" , sep = "분리자", header = TRUE, ...옵션 , fill = TRUE) fill = TRUE 를 추가로 옵션명에 입력하면 데이터가 없는 공간이 자동으로 처리되면서 오류 해결
LaTeX는 문서 조판에 사용되는 프로그램이다. TeX을 직접 사용하기는 어렵기 때문에, 오늘날에는 LaTeX을 이용하여 문서를 만드는 경우가 많다. 논문작성 등에서 복잡한 수식을 사용할 때 워드보다 유용하게 사용된다. 대부분의 수학자들이나 통계학자들은 이 프로그램의 도움을 받고 있다고 들었다. 실제로 본인이 워드로 수식 입력하다 화병이 나버려서 주변 사람에게 물어보니 이 프로그램을 많이 사용한다고 해서 공부하면서 사용하려고 설치한다. 자세한 내용은 Wiki를 참고하면 기능과 사용법 등에 대해 나와있다 . LaTeX - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org https://ko.wikipedia.org/wiki/LaTeX 용량이 4GB 정도이니 컴퓨터 내부에 여유 공간을 확보하..
안녕하세요~ 오늘도 따끈따끈한 추천 후기를 들고 왔습니다! 오늘 후기를 남길 제품은 씨게이트 FireCuda 520 SSD 제품입니다. 요즘 다들 하드보다는 SSD로 많이 쓰시는데요! 저는 이제 SSD가 아니면 못쓸 지경에 이르렀습니다. SSD 중에서도 최강자 씨게이트의 SSD 중 FireCuda 520 제품은 이렇게 5년 보증 기간을 자랑하는 제품입니다. 또한, 해당 제품은 M.2 NVMe는 PCI-E 슬롯을 사용하기 때문에 sata를 사용하는 일반 2.5인치 SSD보다 굉장히 빠릅니다. 그중에서도 PCIe 4.0을 사용하는 NVMe는 PCIe 3.0을 사용하는 다른 NVMe들이 읽기 기준 최대 3500mb/s보다 더 빠른 5000mb/s 정도의 읽기 속도를 보여준다고 합니다. 그렇지만 PCIe 4.0..
제가 공부하고 있는 책의 소스코드는 ipynb 형태인데, 이 주피터 노트북 파일 내에서 외부 코드를 실행하는데 앞에 ! 를 붙여서 많이 사용합니다. 이런식으로 코드 앞에 !를 실행하게 되면 주피터 노트북 안에서도 pip로 패키지 설치 등 가능합니다. 그러나 !export 실행 시 이렇게 'export'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는 배치 파일이 아닙니다. 라는 오류가 발생합니다. export 말고도 어떤 코드들에서는 이러한 오류가 발생할 수 있는데, 이는 Path 잡는데 오류가 발생한 것으로 추측됩니다. 정확한 원인과 해결법은 모르겠으나, 우선 급한대로 해결할 수 있는 방법을 알려드리고자 합니다. 윈도우 설정 > 시스템 정보 를 들어가게 되면 이런식으로 왼쪽에 고급 시스템..
Comment