11월 08일 까지
- R의 기본 & EDA (끝!)
Python 학습 계획
- data type & data structure & 로직
- Numpy & Pandas를 이용한 EDA
- 통계 개념, Python에서 처리, R에서 처리
- 통계적 데이터 분석(통계적 가설검정)
- Tensorflow를 이용한 machine learning
- 지도학습, 비지도학습, 강화학습
- Deep Learning (CNN)
- R에서는 어떻게 하는지
- PythonFlask를 이용한 Web based ML Service 실습
프로그래밍 언어의 종류
파이썬은 1990년대에 만들어졌다. 일반적인 프로그래밍 언어는 각자의 특색이 있는데 파이선과 비교해 이해해보자.
C계열(C, C++, C#)
효율성을 추구
시스템에 적합한 프로그래밍으로 수행속도와 메모리 사용량을 최적화 목적으로 많이 사용됨
메모리를 효율적으로 처리하기 위한 기법 등의 디테일한 방식을 사용함
따라서 어려운 언어
Java
서버쪽 응용 프로그램을 만드는데 최적화
가장 객체지향을 잘 반영하고 있는 언어
JavaScript
클라이언트 쪽 응용프로그램
Front-End Web Application 개발에 최적화
Python
초기에는 프로그램을 쉽게 배우기 위해 개발됨
문법이 쉽고, 초보자가 하기 쉬운 실수도 체계적으로 짜여 학습효과가 있음
자료구조, 데이터 타입이 많지만 이해하기 쉽다
자료구조를 이용한 데이터 처리가 타 언어에 비해 쉽고 용이
→ 외부 모듈/package가 추가되며 데이터 분석에서 강점을 가짐
빠른시간 내에 배울 수 있고 무료임
indent가 강제됨 (들여쓰기)
웬만한 프로그램을 모두 만들 수 있으나, 시스템 프로그램(C계열)과 Mobile App을 개발할 수는 없음
일반적으로 자신의 주 언어가 있어야 한다.
데이터 분석에는 Python이 선호되고, Java는 이후 빅데이터를 위한 hadoop과 맞물리는 특성이 있으므로
Python을 주축으로 Java를 같이 배우는게 추천된다.
Python
[Step1 개발환경 세팅]
두 가지 방법이 있음
- 일반적인 프로그래밍 (웹 프로그래밍)
- 파이선 설치하고 PyCharm을 설치해서 사용
- PyCharm ? 프로그램을 만들기 위해 공동으로 개발시 사용됨
- 데이터 분석 목적
- Python 설치 + Jupyter Notebook
- Jupyter Notebook: interactive 코드를 작성하기에 편한 IDE를 사용
- Anaconda라는 통합환경을 이용하면 편함
- Python은 3.x, 2.x 두가지 형태의 버전 (하위 호환성 제공 안됨)
- anaconda 3는, 3.7을 기반으로 하고 있다
- anaconda 설치 시, 반드시 기존 파이선을 삭제 후에 설치해야 한다
1. Anaconda 설치
2. pip라고 불리는 프로그램의 버전을 최신으로 update 시킬 것
- anaconda prompt 을 관리자 모드로 실행
- python 명령어 이용해 수행 확인
- python -m pip install --upgrade pip
- -m: 응용프로그램 지정
3. 우리가 코드를 작성하고 실행할 가상환경을 생성
- 가상환경을 만들 때 python 3.6 버전 사용 예정 : 앞으로 사용할 tenserflow 2.0 or 2.13 라이브러리가 3.6버전에 가장 안정적이기 때문
- conda create -n cpu_env python=3.6 openssl
- -n: name 이름짓다
4. 가상환경으로 전환해보자
- base -> cpu_env 전환
- activate cpu_env
5. IDE 실행
- 통합 개발환경을 실행해야함
- jupyter notebook이라는 이름의 IDE를 사용
- Web 기반의 개발환경 -> browser를 이용해서 개발
- 이 jupyter notebook이 특정 가상환경을 기반으로 실행되어야 함
- 프로그램에서 작성한 코드를 어떤 가상환경에서 실행할지를 미리 정해줘야 한다는 의미
- 이 jupyter notebook이 특정 가상환경을 이용해 프로그램을 작성하고 실행할 수 있도록 도와주는 package를 하나 설치 할 것 : nb_conda
- conda install nb_conda
6. jupyter notebook에서 코드를 작성하고 실행하기 위한 설정
- ipykernel을 설치하고 설정을 잡아야 함
- python -m ipykernel install --user --name cpu_env --display-name=[CPU_ENV]
- --name: 어떤 개발환경에서 설정할지
- --display-name 눈에 보이는 이름은 CPU_ENV로 설정
7. 가상환경을 삭제하고 싶을 때, 자동 삭제가 되지 않으면 수동으로 지워야 하기 때문에 가상환경 폴더 경로를 기억해 둘 필요가 있다.
- C:\Users\student\AppData\Roaming\jupyter\kernels\cpu_env
8. 현재 가상환경이 어떤게 설치되어 있는지 확인
- conda info --envs
9. 만약 가상환경을 삭제할 경우
- conda remove --name cpy_env --all
- 명령어 실행 후 남아있는 폴더는 수동 삭제
[Step2. IDE(jupyter notebook)를 실행시키기 위한 환경파일 생성하기]
1. 앞으로 어떤 폴더에 파일을 밀어넣을지를 결정 = project설정
- jupyter notebook --generate-config
- 명령어를 입력하고 나면 파일 주소가 할당되면서 config.py파일이 생성된다.
- 이 파일을 notepad로 열어서 261번 줄의 주석 처리를 해제하고, 파일을 저장할 폴더 이름을 하나 설정한다
- 설정한 폴더명 처럼 C드라이브에 python_DA폴더를 하나 생성한다
2. IDE를 실행해서 잘 동작하는지 확인
- jupyter notebook
- 명령어를 입력하면 자동으로 팝업이 뜨면서 아래와 같은 화면이 실행되고
- 앞서 설정했던 CPU_ENV를 확인할 수 있다
크롬의 코렙(colaborator)으로 설치 없이 jupyter를 사용할 수도 있다
단, 디렉토리 설정이 불가능하다.
'데이터사이언스' 카테고리의 다른 글
191112 [Python] Data Type & Structure 2 (시퀀스타입과 매핑타입) (0) | 2019.11.12 |
---|---|
191111 [Python] data type & data structure 1 (0) | 2019.11.11 |
191106 [연습문제 ] Wordcloud & Web crawling (0) | 2019.11.11 |
191106 [자료시각화] 한글 형태소 분석 & WordCloud (0) | 2019.11.06 |
191106 [자료시각화] (0) | 2019.11.06 |