목록ML, DL (3)
Elevation
이어서 pandas의 주요 기능들에 대해 알아본다. 데이터 요약ML 프로젝트의 데이터는 종종 큰 용량을 갖기 때문에, 데이터의 편집에 앞서 데이터 전체의 흐름을 읽고 분석하는 작업도 필요하다. df.info(), df.describe()로 데이터에 대한 요약을 확인해 볼 수 있다. info()는 column별로 결측치가 아닌 값의 개수 및 자료형을 알려 주고, describe()는 숫자 자료형인 column들에 대해 평균, 표준편차, 최대 및 최소, 사분위수 등을 알려준다. describe에서 제시하는 각각의 통계량들은 대부분 df.mean(), df.std(), df.median(), df.max() 등 개별적으로도 확인할 수 있다. 한편 DataFrame 전체의 크기를 알고 싶을 때는 df.shap..
파이썬 라이브러리 pandas는 패널 데이터(Panel Data)에서 이름을 따온 것으로, 엑셀처럼 표 형식의 데이터에 대해 다양한 작업을 수행할 수 있게 해준다. 대량의 데이터가 표 형식으로 주어지는 경우가 많은 ML 프로젝트에서 pandas의 능숙한 활용은 필수적이라고 볼 수 있다. pandas의 핵심 기능들에 대해 간단히 알아보자. 자료구조: DataFrame과 Series pandas에서는 표 형식의 데이터를 담기 위해 DataFrame이라는 자료형을 이용한다. dict, ndarray, Series 등을 DataFrame으로 만드는 것이 가능하다. import pandas as pdimport numpy as npdf = pd.DataFrame({'column1':[1,2], 'column2'..
나 같은 ML 관련 전공자가 아닌 사람이 ML을 배운다면, 수학적 이론을 깊게 파는 것보다는 자신의 분야에 자유롭게 접목시킬 수 있도록 코드를 자유롭게 짤 수 있는 역량이 더 중요하지 않을까 싶다. 그래서 책과 다양한 자료를 접하면서 실전적인 내용 위주로 정리해볼 계획이다. 머신러닝의 분류지도 학습(supervised learning): 답이 있는 데이터로 훈련한다. 즉 훈련 과정에서 입력 데이터($X$)와 답($y$, 흔히 레이블이라고 부름)이 주어진다. 훈련된 모델은 기존에 보지 못한 입력값 $X'$에 대해 예상되는 답 $y'$을 출력한다.비지도 학습(unsupervised learning): 답이 없는 데이터로 훈련한다. 따라서 데이터 자체의 특징을 분석하는 데 초점이 맞춰져 있다. 예로 클러스터..