IT 지식 창고
-
(Python) 시각화 라이브러리 추천 : plotlyIT 지식 창고 2020. 4. 9. 13:03
원래 python에서 시각화 라이브러리로 seaborn, matplotlib을 썼는데, 요즘엔 plotly라이브러리가 잘 되어있는 것 같습니다. https://plotly.com/python/ Plotly Python Graphing Library Plotly's Python graphing library makes interactive, publication-quality graphs. Examples of how to make line plots, scatter plots, area charts, bar charts, error bars, box plots, histograms, heatmaps, subplots, multiple-axes, polar charts, and bubble chart pl..
-
,가 들어간 문자형 수치를 int형으로 변환하기IT 지식 창고 2020. 4. 6. 23:04
가끔 raw한 데이터를 전처리하게 될 경우가 있습니다. 그중에 한 예로, 월급 1 10,000 2 1,000 3 14,444,400 이런 경우 초보자들은 수치라고 착각할 수 있지만, 엄연히 object로 string형 입니다. 아래는 위와 같은 문자형 수치를 int형으로 바꾸는 코드입니다. # 문자열 수치(1,000) -> int(1000)로 바꾸기 def str2int(x): num = '' for i in x.split(','): num+=i return int(num) train['salary'] = train['월급'].map(lambda x : str2int(x))
-
날짜, 시간으로 파일이름 관리하기IT 지식 창고 2020. 4. 4. 23:58
머신러닝 대회를 참가하여 예측하다보면, 새로 수정하며 변하는 ipynb파일이나 업데이트 되는 예측 데이터파일이 계속 생겨나게 됩니다. 성능이 좋았던 ipynb파일과 제출된 파일들을 쉽게 찾아내서 관리하려면, 그날의 날짜와 시간으로 파일이름을 정하여 관리하면 파일들을 쉽게 찾아 정리할 수 있습니다. 그래서 그 당시 작업하고 저장하게 될 때 날짜와 시간을 구하는 코드를 공유하고자 합니다. from datetime import datetime from pytz import timezone date_today = datetime.now(timezone('Asia/Seoul')).strftime("%Y%m%dT%H%M") print('today time : ' + date_today) 위의 코드를 사용하여 오늘 ..
-
상관관계 히트맵 그리기IT 지식 창고 2020. 4. 4. 21:49
정말 간단한 분석을 할 때, 상관관계를 파악해야할 때가 있습니다. 이런저런 옵션들을 생각하고 쓰는 게 불편 할 수도 있는데, 묻지도말고 따지지도 않고 활용할 때는 전 아래의 코드를 계속 해서 사용합니다. def heatmap_visualization(df, figsize = (15,8)): cm = df.corr() f, ax = plt.subplots(figsize=figsize) sns.heatmap(data = cm, annot=True, square=True, fmt = '.2f', linewidths=.5, cmap='Reds', vmin = -1, vmax = 1) 위 그림같이 출력이 되며, 데이터가 많으면 figsize만 그냥 임의로 조정한다면 빠르게 상관관계를 파악 할 수 있습니다. * 수..
-
(Python) loc와 iloc 차이IT 지식 창고 2020. 4. 4. 21:43
loc는 인덱스명이나 칼럼명을 명시해야 되고, iloc는 index location으로 인덱스 번호를 명시해야 됩니다. 예를 들어 아래와 같은 데이터프레임이 있는 경우 age sex 일 10 남 이 12 여 삼 3 남 .... 백 15 여 train.loc['일':'백', 'age':'sex'] train.iloc[0:100, 0:2] 위와 같은 경우에 같은 데이터를 추출해서 보여줍니다. 즉, loc는 1부터 100까지 index의 이름을 넣고, 칼럼도 이름을 넣어서 slicing을 합니다. 반면에 iloc는 index와 칼럼 번호를 넣고 slicing을 합니다. 보통 index에는 일, 이, 삼이 아닌 1 2 3이 들어가 있어서 iloc와 헷갈릴 수 있는데, 이점 잘 생각하고 사용하면 loc와 iloc..
-
본인이 만드는 간단한 min_max_scalerIT 지식 창고 2020. 4. 1. 00:02
아래 처럼 간단하게 본인이 min_max_scaler를 만들 수 있습니다. def min_max_scaler(df): df_min = df.min() df_max = df.max() return (df-df_min)/(df_max-df_min) 여기서는 df부분에는 series 형태가 들어가야 됩니다. 예를 들어 train['age'] 이런식으로 들어가야 됩니다. from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() scaled_train = scaler.fit_transform(pd.DataFrame(train['Age'])) train['Age']=scaled_values scaled_test = scaler.fit_transf..