데이터 분석 1
파이썬 기초 문법은 이미 알던 내용이라 간단히!
[]를 사용하여 빈 리스트를 만들 수 있다. append로 원소를 추가하거나 처음부터 []안에 초기화해줄 수 있음
딕셔너리
set 사용 예제
set은 중복 원소는 나타내지 않는다. 학교다닐때 배웠던 수학적 '집합'을 생각하면 됨!
교집합, 합집합의 연산이 각각 &와 |로 가능하다.
pandas?
데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리
pandas 풀네임보다는 pd로 축약하여 자주 사용하며 주어진 데이터셋(csv)은 아래와 같이
기준일 | 요일 | 성별 | 연령대 | 시도 | 시군구 | 읍면동 | 업종 | 통화건수 |
총 9개의 필드로 이루어져있다. csv 파일은 read_csv를 호출하여 읽어올 수 있으며 csv 파일 외에도 아래 표에서처럼 다양한 파일을 읽을 수 있다.
Format Type | Data Description | Reader |
text | CSV | read_csv |
text | Fixed-Width Text File | read_fwf |
text | HSON | read_json |
text | HTML | read_html |
text | Local clipboard | read_clipboard |
binary | MS Excel | read_excel |
binary | OpenDocument | read_excel |
binary | HDF5 Format | read_hdf |
binary | Feather Format | read_feather |
binary | Parquet Format | read_parquet |
binary | ORC Format | read_orc |
binary | MSgpack | read_msgpack |
binary | Stata | read_stata |
binary | SAS | read_sas |
binary | SPSS | read_spss |
binary | Python Pickle Format | read_pickle |
SQL | SQL | read_sql |
SQL | Google BigQuery | read_gbq |
·Pandas.DataFrame.tail(int): 데이터의 마지막 n행을 반환한다. 파라미터로 int값을 주어 출력할 행의 수를 정할 수 있으며 default로 5이다.
·Pandas.DataFrame.descfibe(): 데이터프레임의 상태를 보여줌.
·Pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True) : 2개 이상의 데이터프레임들을 하나로 합칠 수 있음. 자세한 사용법은 아래 공식 문서 참고!
https://pandas.pydata.org/docs/reference/api/pandas.concat.html?highlight=concat#pandas.concat
pandas.concat — pandas 1.3.2 documentation
If True, do not use the index values along the concatenation axis. The resulting axis will be labeled 0, …, n - 1. This is useful if you are concatenating objects where the concatenation axis does not have meaningful indexing information. Note the index
pandas.pydata.org
Matplotlib?
파이썬에서 매트랩과 유사한 그래프 표현을 할 수 있게 하는 라이브러리로 약어 plt를 많이 사용.
위 sum_of_call_by_week 는 요일에 따라 그룹을 지어 통화건수 필드를 취한 후 sum을 한 데이터들을 담는 변수이다.
plt.rcParams['font.Family']에서 값을 "Malgun Gothic"로 지정했는데, 이는 matplotlib에서는 한글을 지원하지 않기 때문에 한글을 지원하는 폰트를 설정하기 위함이다.
plt.figure 함수에 파라미터 figsize는 그래프의 사이즈를 지정하고, plt.bar로 바그래프를 그린다(index는 월~금이 됨)
타이틀을 지정해주고 plt.show()를 통해 그래프를 눈에 보이도록 한다.
위 코드에서처럼 xlabel, ylabel을 각각 설정할 수 있으며 xticks, yticks를 설정하면 원하는 각도만큼 기울일 수 있다.