일상/책

[IT]나성호의 R 데이터 분석 입문

김크리 2021. 10. 12. 15:20
골든래빗 출판사로부터 책을 제공받아 작성했습니다.
나성호의 R 데이터 분석 입문


"R언어" 는 "SW 개발"이라는 단어를 아는 순간부터 늘 호기심이 생기는 언어였습니다. 컴퓨터공학 전공 수업에서 R를 중점적으로 진행하는 수업은 없지만, 데이터 분석 관련 내용에서는 꼭 출몰하는 프로그래밍 언어였습니다. 파이썬이 대중적인 인기를 끌며 데이터분석에 특화된 언어에 대해 다시 관심을 갖게 되었습니다.

강의를 판매하는 기관, 업체, 미디어에서 말하는 멋진 초급 개발자가 아닌 여기저기 널린 초급 개발자로써 일년에 한두번 이상은 듣는 말이 있습니다.
"파이썬, 00 언어 는 쉬운 언어라던데 지금 공부하면 일주일 안에 ㅇㅇ을 개발할 수 있을까?"라는 말입니다.
"영어 일주일 공부하고 프리토킹 할 수 있을까?" 라고 하는거랑 똑같은 말인데...

이 책의 개요는 환상을 가지고 프로그래밍 언어를 처음 접하는 사람들에게는 정말 필요하다고 생각 들었습니다.

...프로그래밍도 모르고 데이터 분석도 모르는 입문자에게 자칫 불필요한 오해를 심어주고 있습니다. R과 파이썬 데이터 분석은 절대 쉽지 않습니다. 새로운 언어를 배워야 하기 때문에 익숙해지려면 수개월에서 수년이 걸립니다...(중략)

누구나 알지만 예의상, 혹은 금전적 이득을 위해 쉽게 말해주기 어려운 내용을 짚고 넘어가는 친절함을 느낄 수 있습니다. 프로그래밍 언어를 배운 경험이 있더라도, 파이썬 등의 언어로 데이터 분석을 해본 사람이라 할지라도 새로운 언어에 대해 익숙해지고 프로세스를 익히는데에 시간이 걸릴 것입니다.

이 책은 "R언어를 이 책 한 권으로 마스터한다!" 가 아닌 현실적인 목표를 제공하였습니다.

  • 프로그래밍 언어가 뭐지?
  • 데이터분석에 프로그래밍 언어가 어떻게 쓰이는걸까?
  • R언어가 뭘까?
  • ㅇㅇ에 대한 자동화를 만들려면 어떻게 해야할까?
  • 우리 회사 개발자가 이걸 만들어 줬으면 좋겠는데 안된데! 왜 안되는건지 난 이해가 안돼!(희망사항)
목표는 높게 하되, 기대는 내 역량에 맞추자!

저는 이번 도서를 읽으며 관심있던 R언어가 무엇인지, 왜 사용하는지, 어디서 사용하는지, 어떻게 사용하는지에 대해 학습하고, 라이벌(?) 파이썬과의 차이점에 대해 알아보고자 했습니다. 그리고 무료했던 프로그래밍 학습에서의 새로운 언어를 학습하여 다시 학습 의욕을 높이고자 했습니다.
약 일주일간 도서를 읽으며 원하던 목표를 대부분 이루었습니다.

R언어는,

통계학자가 통계 분석을 목적으로 만든 프로그래밍 언어입니다. 그래서 통계 분석에 특화되어있고, 필요에 따른 데이터 셋을 미리 제공해주고 있습니다.
책에서는 1, 2, 3단계로 R언어로 컨트롤 할 수 있는 데이터의 구조와 컨트롤 방법 그리고, 데이터 분석에 대한 방법을 차례대로 배울 수 있습니다.
이 과정을 통해 프로그래밍 언어에 대해 쉽게 배울 수 있으며, 프로그래밍을 통해 현재 자신의 수준으로 만들 수 있는 것, 앞으로 공부해 나갈 것을 명확하게 선택할 수 있습니다. 무엇에 대한 계획을 세우려면 해당 지식이 있어야 하는데 이것을 충분히 충족시켜줄 수 있다고 생각합니다.
이 책에서는 모든 프로그래밍 언어가 아닌 R 프로그래밍 언어를 사용하기 위한 기본적인 지식과 예제를 제공해주고 있습니다. 특히 도서 뿐만 아니라 github(https://github.com/HelloDataScience/DAwR)에 예제를 작성해주어 쉽게 따라할 수 있습니다. 개인적으로 필요한 부분만 작성 및 주석 처리하여 개인 github에 공부하였습니다.

실습 환경

Windows, Mac, Linux 환경에서 R 언어를 사용할 수 있습니다. 오픈소스인 R 설치 파일, 통합 개발 환경(IDE)를 가이드에 따라 설치 진행 할 수 있습니다.
RStudio는 꽤 친절한 IDE 로 프로그래밍을 처음 접하는 사용자도 쉽게 사용할 수 있다고 생각합니다.

자료구조

R에서 다루는 자료구조에 대해서 설명합니다. 해당 자료구조가 무엇인지 어떻게 사용되는지에 대해 배울 수 있습니다.
기본적인 엑셀 문서(xlsx, xls 등)를 작성하고 사용해본 사람이라면 쉽게 이해할 수 있습니다.

프로그래밍

조건문, 반복문, 기타 함수, 사용자 정의 함수에 대해 설명하고 학습니다. 이를 통해 R언어를 다룰수 있습니다.
자료구조가 "검(sword)" 라는 무기라면, 프로그래밍에서는 검을 가지고 찌르거나 베는 과정을 학습합니다.

데이터 분석

제공되는 실 거래 데이터를 가지고 실전처럼 학습하는 방법입니다. 이 과정을 통해 R언어로 무엇을 할 수 있는지 학습할 수 있습니다. 또한, 앞으로의 학습방법에 대해 계획을 짤 수 있는 파트라고 생각합니다. 오픈API를 통해 공공데이터를 가져와 원하는 방향으로 데이터를 분석, 시각화 할 수 있습니다.

마무리

R언어는 빅데이터, 데이터분석, 통계용 언어 라는 수식을 갖고 있는 것 치고는 접근이 괜찮은 언어입니다. 입문 단계에서는 데이터 분석에 필요한 기능만을 학습 할 수 있어서 군더더기 없이 좋은 기초 책이라고 생각합니다. 이 언어를 가지고 효율적으로 사용할 수 있을지, 업무에 필요한 기능을 만들거나 도움이될 수 있을지에 대해 많은 생각을 하게 됩니다.

참고



나성호의 R 데이터 분석 입문 도서 : http://mbook.interpark.com/shop/product/detail?prdNo=354218784
도서 예제 github : https://github.com/HelloDataScience/DAwR
요약정리 : https://67crystalk.tistory.com/110