🧐데이터 분석

데이터 분석 1

민팽 2021. 8. 18. 14:50

파이썬 기초 문법은 이미 알던 내용이라 간단히!

[]를 사용하여 빈 리스트를 만들 수 있다. append로 원소를 추가하거나 처음부터 []안에 초기화해줄 수 있음

딕셔너리

set 사용 예제

set은 중복 원소는 나타내지 않는다. 학교다닐때 배웠던 수학적 '집합'을 생각하면 됨!

교집합, 합집합의 연산이 각각 &와 |로 가능하다.

pandas?

데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리

pandas 풀네임보다는 pd로 축약하여 자주 사용하며 주어진 데이터셋(csv)은 아래와 같이

기준일 요일 성별 연령대 시도 시군구 읍면동 업종 통화건수

총 9개의 필드로 이루어져있다. csv 파일은 read_csv를 호출하여 읽어올 수 있으며 csv 파일 외에도 아래 표에서처럼 다양한 파일을 읽을 수 있다.

Format Type Data Description Reader
text CSV read_csv
text Fixed-Width Text File read_fwf
text HSON read_json
text HTML read_html
text Local clipboard read_clipboard
binary MS Excel read_excel
binary OpenDocument read_excel
binary HDF5 Format read_hdf
binary Feather Format read_feather
binary Parquet Format read_parquet
binary ORC Format read_orc
binary MSgpack read_msgpack
binary Stata read_stata
binary SAS read_sas
binary SPSS read_spss
binary Python Pickle Format read_pickle
SQL SQL read_sql
SQL Google BigQuery read_gbq

 

·Pandas.DataFrame.tail(int): 데이터의 마지막 n행을 반환한다. 파라미터로 int값을 주어 출력할 행의 수를 정할 수 있으며 default로 5이다.

·Pandas.DataFrame.descfibe(): 데이터프레임의 상태를 보여줌.

·Pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True) : 2개 이상의 데이터프레임들을 하나로 합칠 수 있음. 자세한 사용법은 아래 공식 문서 참고!

https://pandas.pydata.org/docs/reference/api/pandas.concat.html?highlight=concat#pandas.concat 

 

pandas.concat — pandas 1.3.2 documentation

If True, do not use the index values along the concatenation axis. The resulting axis will be labeled 0, …, n - 1. This is useful if you are concatenating objects where the concatenation axis does not have meaningful indexing information. Note the index

pandas.pydata.org

 

Matplotlib?

파이썬에서 매트랩과 유사한 그래프 표현을 할 수 있게 하는 라이브러리로 약어 plt를 많이 사용.

위 sum_of_call_by_week 는 요일에 따라 그룹을 지어 통화건수 필드를 취한 후 sum을 한 데이터들을 담는 변수이다.

plt.rcParams['font.Family']에서 값을 "Malgun Gothic"로 지정했는데, 이는 matplotlib에서는 한글을 지원하지 않기 때문에 한글을 지원하는 폰트를 설정하기 위함이다.

plt.figure 함수에 파라미터 figsize는 그래프의 사이즈를 지정하고, plt.bar로 바그래프를 그린다(index는 월~금이 됨)

타이틀을 지정해주고 plt.show()를 통해 그래프를 눈에 보이도록 한다.

위 코드에서처럼 xlabel, ylabel을 각각 설정할 수 있으며 xticks, yticks를 설정하면 원하는 각도만큼 기울일 수 있다.