python

    ch7 data 정제

    들어가면서 Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)의 모든 내용을 포함하고 있지 않습니다. 제가 몰랐던 부분, 헷갈렸던 부분만 정리 되어있습니다. ch7 Data cleaning and preparation 결측값 처리 (dropna, fillna) dropna의 기본 drop은 NaN이 하나라도 포함되어 있으면 row를 삭제한다. how에 all을 넣으면, row 전체가 NaN일때만 삭제한다. threshold도 있어서, NaN의 갯수가 threshold를 넘을때 drop 할 수도 있다. axis도 있어서 column을 날릴 수도 있다. # value_count 활용 import pandas as pd import numpy as np df = pd.Dat..

    Ch5 Pandas

    들어가면서 Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)의 모든 내용을 포함하고 있지 않습니다. 제가 몰랐던 부분, 헷갈렸던 부분만 정리 되어있습니다. Ch5 getting started with Pandas Series series는 인덱스가 key, data가 item인 dictinary와 같다. series는 index label에 의해서 산술 연산이 가능하다 DataFrame index를 공유하는 series 집합 Transpose를 2번할때, column이 모두 같은 type이 아니라면 다시 돌아왔을때 값이 같음을 보장하지 않는다. Pandas Index Object는 immutable type이라 user에 의해서 바뀌지 않는다. (함수를 사용해야됨) ..

    ch4 Numpy Basics

    들어가면서 Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)의 모든 내용을 포함하고 있지 않습니다. 제가 몰랐던 부분, 헷갈렸던 부분만 정리 되어있습니다. ch4. Numpy Basics: Arrays and vectorized Computation 초기 생성 np.zeros, np.ones로 생성 가능 np.empty도 생성은 가능하나 초기값이 0임을 보장하지 못한다. 메모리의 garbage값을 넣어준다. indexing selecting data는 항상 복사본을 생성한다. tuple을 넣어줌으로써 mutiple index array에 접근할 수 있다. 행렬의 부분 집합을 :로 고를 수 있다. 연산 astype으로 type을 casting 할 수 있다. C 또는 f..

    ch10 Data aggregation and group Operations

    들어가면서 Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)의 모든 내용을 포함하고 있지 않습니다. 제가 몰랐던 부분, 헷갈렸던 부분만 정리 되어있습니다. ch10 Data aggregation and group Operations dropna group의 키값들은 N/A값이 빠진다. dropna=False로 하면 NA값도 보여준다. df.groupby(df['key'],dropna=False).size() size / count size는 group의 크기, count는 nonnull values를 표시한다. # null 값의 유무로 결과가 다르게 나온다 df.groupby(df['key']).size() df.groupby(df['key']).count() ite..

    ch8 Data Wrangling

    들어가면서 Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)의 모든 내용을 포함하고 있지 않습니다. 제가 몰랐던 부분, 헷갈렸던 부분만 정리 되어있습니다. ch8 Data Wrangling : Join, Combine and Reshape Hierarchical Indexing (MultiIndex) stack unstack index를 기준으로 생각하면 된다. column값을 index에 쌓으면 stack index를 column값으로 꺼내면 unstack level index를 기준으로 하는 dataframe연산 (groupby, sort_index 등)을 multiIndex dataframe에 할때는 arg로 level을 지정하면 된다. swapindex로 mu..

    ch11 Time Series

    들어가면서 Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)의 모든 내용을 포함하고 있지 않습니다. 제가 몰랐던 부분, 헷갈렸던 부분만 정리 되어있습니다. ch11 Time Series to_datetime datetime 으로 형변환 할때는 astype이 아니라 pandas의 to_datetime을 사용 from pandas as pd df = pd.DataFrame({"time":["2021-01-01","2021-01-02","2021-03-01"]}) df['time'] = pd.to_datetime(df['time']) NaT pandas의 timestamp data type의 null value이다. pandas.tseries.offsets datetime..

    ch2 jupyter Notebook, ch3 Built-in Python

    들어가면서 Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)의 모든 내용을 포함하고 있지 않습니다. 제가 몰랐던 부분, 헷갈렸던 부분만 정리 되어있습니다. ch2. pyhon language basics, Ipython and Jupyter Notebooks jupyter introspection wildcard(*)가 포함된 문구 다음에 ?를 치면 그안에 포함된 함수들을 출력한다. import numpy as np np.*load*? # load가 포함된 numpy 함수가 출력됨 python basic 모든 것은 object이다. object는 associated type(e.g., integer, string or function)과 internal data 를 ..