본문 바로가기
데이터분석/Matplotlib &Seaborn

pandas/matplotlib/seaborn 앤스콤 4분할 그래프

by ADELA_J 2023. 6. 18.

<앤스콤 4분할 그래프>

- 영국의 프랭크 앤스콤이 발견한 함정을 보여주기 위해 만든 그래프

- 데이터를 시각화하지 않고 수치(평균, 분산과 같은 수칫값, 상관관계 회귀선)가 같다는 이유로 모든 데이터가 같을 거라고 생각하는 함정을 지적.

- 하지만 각 데이터 그룹을 시각화하면 데이터 그룹이 서로 다른 데이터 패턴을 가지고 있다는 점을 금방 알 수 있음.

 

 

1. 앤스콤 데이터 집합 불러오기

 > 앤스콤 데이터 집합은 seaborn 라이브러리에 포함되어있음.

 > 아래 코드처럼 불러올 수 있음. 

그 외에도 길게 나온다....

 

만약 점으로 그리고 싶으면 3번째 인자를 'o'으로

 >> 선말고 다른 마커로 하고싶으면 아래 링크 참고

https://matplotlib.org/stable/api/markers_api.html#module-matplotlib.markers

 

2. 앤스콤 데이터 집합은 4개의 데이터 그룹으로 구성되어 있는데 이 그룹의 차이를 파악하려면 그래프로 시각화해야한다고 함.

출처 : https://loadtoexcelmaster.tistory.com/entry/%EC%97%91%EC%85%80%EC%97%90%EC%84%9C-%EC%95%A4%EC%8A%A4%EC%BD%A4-4%EB%B6%84%ED%95%A0-%EA%B7%B8%EB%9E%98%ED%94%84Anscombes-quartet-%EA%B7%B8%EB%A6%AC%EA%B8%B0

 >> 이처럼 데이터는 다르지만 평균과 표준편차는 같다. 

 

 ** 그래프를 그리기 위한 과정

 1. 데이터 값 추출

2. 그래프 격자 그리기

3.  데이터 전달하기

4. 제목 추가하기

5. fig.tight_layout() 해주면 겹치는 이름과 숫자 정리해줌

>>> 숫치는 같지만 그래프의 형태는 다를 수 있다는걸 보여주는 예! : 앤스콤 4분할 데이터