본문 바로가기
즐거운 취미

파이썬으로 배우는 통계학 교과서 - 바바 신야

by 해리보쉬 2024. 12. 20.
728x90
반응형

안그래도 요즘 Data를 다룰 일이 많아서

머신러닝 data 이론을 공부하고 있는데요

결국 통계학과 확률이론

데이터 모데링을 공부해야 합니다. 피할 수 없어요

꼭 필요한 것만 부분부분 읽어 그 순간 써야하는 함수나 이론을 이해만 하고 넘어갔는 데 통계학을 전반적으로 한번 살펴보고 내가 어느 부분에서 발췌해 쓰고 있다라는 개념을 가져보고자 책을 집어들었습니다.

물론 한권의 책을 읽는다고 바로 달라지는 것은 없겠지만

모든일에는 시작이 있겠죠

통계학 입문서

"파이썬 함수로 이해하는 통계학!"

콘텐츠 추천, 데이터 분석 등 현대 사회의 중요한 의사결정은 통계를 기반으로 이루어진다. 하지만 통계학의 수식과 이론만으로는 그 개념이 잘 와닿지 않을 때가 많다. 이 책은 그러한 어려움을 덜어주고자 이론과 더불어 파이썬 코드와 실습을 통해 직관적으로 이해할 수 있는 길을 안내한다. 넘파이와 팬더스 라이브러리로 데이터를 분석하고, 맷플롯립과 시본을 이용해 데이터를 시각화한다.

기술통계, 확률과 분포, 통계적 추정, 가설검정 등 통계의 기본을 다지고 나아가 머신러닝과의 접점까지 살펴본다. 이론에만 머무르지 않고 실제 데이터를 분석하며 통계 이론을 익히는 방식은 통계를 학습하는 데 큰 도움이 될 것이다. 통계가 어렵게만 느껴졌다면 이 책으로 시작해보자.

알라딘 책소개

2014년 홋카이도 대학 수산과학원을 수료했다. 2020년 11월부터 도쿄의과치과 대학 비상근 강사, 2021년 2월부터 이와테대학 객원 부교수, 2022년 4월부터 테이쿄 대학 특임 강사를 맡고 있다. 통계학, 예측 분석, 파이썬, R 등을 다루는 Logics of Blue(https://logics-of-blue.com/)라는 웹사이트도 관리하고 있다.

저서로는 『平均?分散から始める一般化線形モデル入門』(プレアデス出版, 2015), 『時系列分析と?態空間モデルの基礎:RとStanで?ぶ理論と??』(プレアデス出版, 2018), 『RとStanではじめるベイズ統計モデリングによるデ?タ分析入門』(講談社, 2019), 『R言語ではじめるプログラミングとデ?タ分析』(ソシム, 2019), 『意思決定分析と予測の活用基礎理論からPython??まで』(講談社, 2021) 등이 있다.

저자 바바 신야

 

그리고 이 책은 현재 2판입니다.

그만큼 널리 읽혀졌다는 반증같습니다.

특히 초판이 아닌데 정말 고마운 점은 파이썬 실습코드 점검 및 수정을 해줬다는 것

, 이거 당연한 것 같은 데 은근히 안되는 부분입니다.

과거에 쓰여진 책이 현재 버젼에서 되지 않아 코드 실행부분에서 자꾸 막히면

찾아보고 수정하며 실력향상이 될 수도 있지만

책을 읽는 속도가 더뎌지고 흥미가 떨어질 수 있습니다.

일단 기초적인 이론을 설명하고 파이썬으로 실습한다

이 간단한 기본 구조를 따르고 있습니다.

주로 세가지 관점에서 설명합니다.

데이터는 어떻게 분석하는가

데이터는 어떻게 분석하는가

왜 그렇게 분석하는 게 좋은 가

파이썬을 사용해서 어떻게 분석하는 가

보통 왜가 빠져있는 데 그 부분을 설명해주니 초보자에게 굉장한 이점으로 다가옵니다.

항상 초반 몇 챕터를 공부하다 놔버렸던 통계학 공부

이번엔 다시 학생으로 돌아간 마음으로 밑줄 쳐가며 하나하나

이론들 꼼꼼히 살펴봤습니다.

전체적으로 빠르게 개념만 익힌다기 보다는

각 챕터별로 이론이라도 확실하게 읽어보시길 권장드립니다.

특히 비슷한 단어와 같은 단어라도 뜻이 다른 경우가 있으니 기억이 안나면 앞부분으로 다시 넘겨가며 정독했습니다.

 

제가 지금 회사에서 할려고 하는 일도 확률모델을 만드는 것

머신러닝으로 회귀모델을 만드는 것입니다.

역시 언젠가 쓰일 이론과 기술이 아니라 바로 실무에 접해야하는 것이다 보니 더 집중하며 읽을 수 밖에 없었어요

이론을 읽어보고 수식을 이해하고 파이썬으로 구현하며 확인해봅니다.

수식은 기호들이 낯설어 다시 찾아보며 최대한 이해해보려고 노력했습니다.

그리고 파이썬으로 시뮬레이션을 해보니 직관적으로 이해하는 데 도움이 되드라구요

행여 파이썬을 아직 다 배우지 못했다 코딩에 대한 두려움이 있다라고 생각하신다면 전혀 걱정하실 필요가 없습니다.

코딩 자체는 아주 간단한 수준이며 파이썬 코드의 기본만 아시면

충분히 실습해볼 수 있습니다.

오히려 수식의 이해가 허허....

조금 어려울 수 있어요

저자도 어려우면 중간과정은 무시하고 결과만 살펴봐도 괜찮다고 하십니다만

정규분포 확률밀도함수라 다 비슷한 함수의 변형입니다.

이런분에게 추천합니다.

파이썬 기초지식은 있지만 통계는 잘 모르는 분,

파이선이 익숙하지 않지만 통계를 공부해보려는 분,

통계가 어려줘 포기했다지만 다시 도전하고자 하는 분

저는 제조 공정에서 공정별로 나오는 데이터의 상관관계와 데이터 회귀

그리고 통계를 내보려고 책을 잡았습니다.

누구나 학습서적을 선택할 때 목적이 있겠지만

최근 머신러닝이나 딥러닝에 파이썬이 많이 사용되고 있고

데이터를 처리하는 데 파이썬을 이용한 통계학 공부는 관련 분야를 공부하는

학생이나 실제로 써보려는 현장의 엔지니어들에게

항상 통용될 것 같은 기본 서적입니다.

언젠가 raw data를 받았을 때 이건 이런 이론으로 이렇게 분석해보자 하고 바로 아이디어가 떠오를 날을 그려보며 사무실 책장 한켠에 비취해두려고 합니다.

"한빛미디어 <나는리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

728x90
반응형

댓글