야구 분석/Tableau

간단한 투수 데이터 분석 및 시각화

sam_j_s 2024. 4. 6. 18:37
728x90
반응형

시각화 주제

프로야구에는 많은 투수들이 있지만 삼성 라이온즈의 원태인 선수의 기록으로 분석을 해보겠습니다. 6년차 시즌을 보내고 있는 원태인 선수의 기록 중 WAR(대체 수준 대비 승리 기여도)가 가장 높은 21시즌과 직전 시즌인 23시즌 중 어느 시즌을 할지 고민하다가 23시즌으로 결정하였습니다.

 

23시즌 원태인 선수는 2023WBC, 항저우 아시안게임 등 국가대표로 당당히 이름을 올렸고, 삼성 라이온즈에서 없어서는 안 될 투수가 되었습니다. 그럼 23시즌 원태인 선수는 얼마나 잘했을까요?

 

데이터 출처

현재 KBO선수들의 기록은 다양한 곳에서 찾아 볼 수 있습니다. 그중 스탯티즈(https://statiz.sporki.com/)에서 원태인 선수의 기록을 가져왔습니다.

23시즌_원태인.xlsx
0.01MB

 

 

투구 데이터 시각화

태블로를 이용해서 시작화를 해보았습니다.

결합된 축 및 라인 경로 활용

선발투수 기록 중 가장 주요하게 다뤄지는 기록은 투구이닝, 실점, 방어율입니다. 그렇기 때문에 이 기록이 결합된 축 및 라인 경로를 활용하여 표현해 보았습니다.

 

엑셀 파일을 가져오고 새 워크시트에서 날짜 및 상대를 열에 두고 이닝을 행으로 가져와 주었습니다.

원태인 선수가 23시즌 나왔던 경기가 어떤 상대를 만났고 어느 정도의 이닝을 던졌는지를 알 수 있습니다. 하지만 실점은 나와있지 않기 때문에 실점을 넣어주어야 합니다.

실점 필드를 드래그 하여 위의 사진과 같이 '||'모양이 나왔을 때 놓으면 축이 결합되어 하나의 축에 같이 표현이 됩니다. 이후, 측정값 이닝 및 실점 필드를 선택 후 합계 방식이 아닌 평균으로 바꿔주어야 합니다. 각 경기당 평균 투구 이닝 및 실점을 볼 것이기 때문입니다.

 

마크에서 막대를 라인으로 변경 후 값을 확인해 줍니다.

완성된 그래프를 보면, 투구이닝 > 실점인 경우에는 / 모양을 보이지만, 반대인 투구이닝 < 실점인 경우에는 \ 모양을 보입니다.

 

23년 5월 23일 두산전과 23년 8월 3일 기아 전을 제외하면 대부분의 경기를 푸른 피의 에이스로서 잘 이끌어낸 것을 알 수 있습니다.

 

이중 축 및 막대차트 활용

투수의 제구력을 볼 때 이용하는 지표인 볼삼비(K/BB), 삼진 및 볼넷 개수를 이중 축을 활용하여 표현해보겠습니다.

 

새로운 워크시트에 날짜 및 상대를 행으로 올리고 삼진 및 볼넷을 열로 가져왔습니다. 우선 열에 있는 삼진 및 볼넷은 합계방식이 아닌 평균으로 변경해 주었습니다.

 

이후 측정값 볼넷 필드 오른쪽 버튼을 클릭 후, 이중 축 부분을 클릭합니다.

이중 축으로 결합되면 원 모양으로 변하게 되는데 태블로가 인식하기에 가장 적합한 형태로 보여주는 방식으로 변한 것입니다. 하지만 원으로는 원하는 결과를 얻기에는 어려워 막대로 변경해 주겠습니다.

 

축 동기화를 해주고, 왼쪽에 있는 마크에서 볼넷 부분을 선택한 후, 막대 크기를 작게 조절해 줍니다. 그다음 볼넷을 노란색 삼진을 파란색으로 바꿔주었습니다.

몇 경기를 제외하면 대부분의 경기에서 볼넷보다 삼진을  더 많이 잡은 모습을 보이고 있습니다. 그렇기에 제구가 좋은 투수라고 볼 수 있습니다.

 

실제로 스탯티즈에서 볼삼비를 보더라도 원태인 선수의 볼삼비는 3.00으로 선발투수들 중 외국인 선수를 제외하고 3번째에 있는 것을 확인할 수 있습니다.

 

구종별 HOT&COLD 존

이번에는 각 경기마다 어느 구종을 많이 던졌는지 핫콜드존을 이용해 확인해 보겠습니다.

 

원태인 선수는 23시즌 (직구, 슬라이더, 체인지업, 커브, 싱커) 총 5가지 구종을 던졌습니다. 네이버에서는 커터도 던졌던 것으로 나왔는데 스탯티즈에서는 슬라이더의 구사율과 구속 모두 높은 것으로 보아 슬라이더에 커터도 포함시킨 것으로 생각됩니다. 구종 필드를 따로 가져오기 위해, 데이터 원본 페이지에서 피벗 작업을 별도로 해주어야 됩니다.

피벗에 데이터 추가를 누르면 필드가 새로 생기는데 구종 및 구종별 투구 수로 변경해 주었습니다.

 

새로운 워크시트에 행에 날짜 및 상대를 넣어주고 열에 구종을 가져와주었습니다. 이후 계산된 필드 만들기를 활용하여, 아래 수식과 같이 구종별 구사율 필드를 만들어줍니다.

이후 마크에서 사각형을 선택하고, 구종별 구사율 필드의 색상을 바꿔주면 아래와 같이 됩니다.

대부분의 경기는 직구나 슬라이더에서 핫존이 보이지만 8월 20일 기아 전에만 체인지업이 매우 빨간 것을 확인할 수 있습니다. 정확한 값을 보기 위해 구종별 구사율과 구종별 투구 수도 추가해 주었습니다.

 

대부분의 경기는 100 구정도를 던졌지만 8월 20일 기아 전의 경우에는 우천중단으로 33이구만 던졌기 때문에 체인지업의 구사율이 높은 것을 알 수 있습니다. 

 

23시즌 원태인의 핫콜드존을 보면 직구를 대부분 던지고 슬라이더, 체인지업을 그다음으로 던지는 고 커브나 싱커는 매우 적게 던지는 것을 볼 수 있습니다.

 

삼성의 에이스 원태인 선수의 24시즌 멋진 활약을 기대하며 간단한 투구 분석 및 시각화를 마치겠습니다.

반응형

'야구 분석/Tableau'의 다른글

  • 현재글 간단한 투수 데이터 분석 및 시각화

관련글