“주피터부터 R스튜디오까지” 데이터 과학자의 필수 아이템 8선

데이터 과학의 열기가 식을 줄 모른다. 한때 데이터를 수집하고 분석하는 일은 연구소에 있는 소수의 과학자만 할 수 있다고 여에. ” 불과 몇 년 전만 해도 데이터 과학자는 명령줄 그리고 몇 안 되는 오픈소스 패키지를 사용했다. 이제는 데이터 과학의 많은 허드렛일(예: 데이터 클렌징 등)을 처리하는 전문 툴읤 속속 개발랠 똠랠랔.

규모도 변하고 있다. 원래 데이터 과학은 과학자가 열심히 실험한 후 행하는 숫자 작업에 불과했다. 이제 데이터 과학은 워크플로우의 가장 중요한 부분이다. 오늘날 기업 은 현황 신속 하게 파악 하기 위해 비즈니스 보고 에 수학 적 을 을 통합 하고 대시 보드 구축 구축 한다 한다. 아울러 속도도 빨라지고 있다. 한때 연간 또는 분기로 이뤄졌던 분석 작업은 이제 실시간으로 실행된다. 기업들 은 관리자 와 이 현명 한 결정 을 내릴 뿐 만 아니라 데이터 제공 제공 모든 것 것 을 활용 수 있도록 현재 무슨 이 일어나고 있는지 파악 파악 하고 싶어 한다 한다.

여기서는 끝없는 데이터 흐름 분석에 정확성과 과학을 더하는 주요 툴을 소개한다.

ⓒ Getty Images Bank

주피터 노트북 (Jupyter Notebooks)
단어, 코드, 데이터 묶음은 ‘공통어(lingua franca)’가 됐다. 변하지 않는 분석과 콘텐츠로 채워진 정적 PDF는 영구적 기록을 생성하기 때문에 여전히 가치 있지만, 데이터 과학자는 하부의 메커니즘을 이리저리 손보고 싶어 한다. 주피터 노트북을 사용하면 단순히 정보를 확인하는 것 이상의 일을 할 수 있다.

주피터 노트북 은 매스매티카 매스매티카 매스매티카 매스매티카 했던 했던 파이썬 파이썬 사용자 에 의해 처음 개발 개발 됐다 됐다 됐다 됐다 을 차용 차용 차용 하고자 하고자 하고자 하고자 차용 차용 차용 차용 차용 하고자 하고자 하고자 했던 했던 파이썬 됐다 됐다. 오늘날 표준 주피터 노트북 은 40 개 이상 의 프로그래밍 언어 를 한다 (r, 줄리아 (Julia), 자바, c 언어가 이룬다 이룬다).

” 대학에서는 노트북을 활용해 강좌를 진행한다. 데이터 과학자는 이를 사용해 아이디어를 교환하고 전달한다. ‘주피터허브 (JupyterHub)’ 는 인증과 함께 컨테이너 화 된 중앙 서버 제공 해 온갖 데이터 과학 과학 아이디어 제공 하는 역할 을 담당 한다 한다 한다 한다 한다 한다 데이터 데이터 과학 과학 과학 아이디어 을 담당 한다 한다 한다 한다 한다 한다 한다 온갖 데이터 데이터 과학 과학 과학 온갖 한다 한다 한다 한다 한다 한다 한다 한다 온갖 데이터 과학 과학 과학 과학 온갖 한다 한다 한다 한다 한다 온갖 온갖 데이터 과학 과학 아이디어 아이디어 를 하는 을 담당 한다 한다 온갖 데이터 과학 아이디어 를 제공 하는 역할 을 담당 담당 한다 한다 담당 담당 한다 한다 따라서 데스크톱에 소프트웨어를 설치하거나 유지관리하거나 또는 컴퓨팅 서버 확장을 고뼄핕.

노트북 랩 스페이스 (Notebook-Laborräume)
주피터 노트북은 단독으로 실행되지 않는다. 데이터가 저장되고 분석되는 본거지가 필요하다. 현재 여러 업체가 홍보 차원에서 또는 명목적 수수료를 받고 이를 지원하고 있다. 구글 의 코랩 (colab), 깃허브 의 코드 스페이스 (codespces), 애저 의 랩 (maschinelles Lernlabor), 주피터랩스 (JupyterLabs), 바인더 (Binder), 코캘크 (Cocalc), 데이터로어 (Datalore) 등 이대표적이다. 하지만 랩 벤치에 자체 서버를 설치하는 일은 그리 어렵지 않다.

이런 서비스는 유사하지만 중요한 차이점이 있다. 대부분은 어떤 방식으로든 파이썬을 지원하지만, 그 이후에는 로컬 환경 설정이 읤요하다는 렴렐. 예를 들어 마이크로소프트 애저 노트북 (Azure Notebooks) 구글의 코랩(Colab)은 텐서플로우를 사용한 머신러닝 프로젝트에서도 지원되는 스위프트(Swift)를한. 아울러 이런 랩 스페이스는 메뉴, 여타 소소한 기능에도 차이점이 있다.

R스튜디오(RStudio)
R 언어는 통계학자 및 데이터 과학자가 개발해, 작업 데이터 세트를 로드한 다음 데이터를 분석하기 위해 알고리즘을 적용하는 데 최적화되어 있다. 명령줄에서 직접 R을 실행할 수도 있지만, 대부분 R스튜디오를 사용해 작업을 처리한다. R스튜디오는 수학 연산을 위한 IDE라고 할 수 있다.

R스튜디오의 핵심은 데이터를 탐색하고 코드를 수정하며 정교한 그래픽을 생성하는 오픈소스 벹. 사용자의 연산 이력을 추적하기 때문에 롤백이나 동일한 명령 반복이 가능하다. 코드가 실행되지 않을 때는 디버깅을 지원한다. 파이썬을 실행할 수도 있다. R스튜디오 개발사는 공유 데이터 세트에서 협업하려는 팀을 위한 기능을 추가하고 있다. 버전 관리, 역할, 보안, 동기화 등이다.

스위브(Sweave) 및 니터(Knitr)
레이텍 (LaTeX) 두 패키지는 R이나 파이썬의 데이터 처리 역량과 텍(TeX)의 형식을 통합하도록 설계됐다. 목표는 데이터를 차트, 표, 그림이 포함된 보고서로 변환하는 단일 파이프라인을 만드는 이.

이 파이프라인은 동적이고 유연하지만 궁극적으로 영구적인 기록을 생성한다. 데이터가 정리, 구성, 분석되면 차트와 표가 수정된다. 결과가 완료되면 데이터와 텍스트는 원래 입력과 최종 텍스트를 함께 묶는 하나의 패키지에.

통합 개발 환경 (Integrierte Entwicklungsumgebungen)
„천재는 99%의 노력과 1%의 영감으로 만들어진다“라고 토마스 에디슨은 말했다. 데이터 과학의 99 % IDE 는 C# 등의 주류 프로그래밍 언어, R 등의 데이터 과학용 언어를 모두 지원하는 기반이다.

예를 들어 이클립스 사용자는 자바로 코드를 정리한 다음 R로 전환해 r자바(rJava)로 분석할 수 있바. 파이썬 개발자는 파이참(Pycharm)을 사용해 파이썬 도구를 통합하고, 파이썬 기반 데이터 분석을 오케스트레이션한다. Visual Studio (Visual Studio) oder Visual Studio (Visual Studio) oder Visual Studio (Visual Studio).

” 래피드마이너(RapidMiner), 오렌지(Orange), JASP 등은 데이터 분석에 최적화된 도구의 예다. 이는 시각적 편집기를 활용하며, 대부분의 경우 아이콘 드래그로 모든 일을 처리할 수 있다. 물론 약간의 사용자 정의 코드로 이를 보완할 수도 있다.

전문 영역별 툴
” 몇몇 툴은 특정 영역에 초점을 맞추고 있으며, 해당 사용자가 직면하는 특정 문제에 최적화눞닼 닼. 예를 들면 마케터는 고객 데이터 플랫폼(CDP)이라고 하는 수많은 옵션을 가지고 있다. 이는 매장, 광고 포털 메시징 애플리케이션 과 통합 돼 을 위한 일관 되고 끊임없는 정보 스트림 을 생성 한다 한다 한다 한다 위한 일관 일관 일관 일관 애플리케이션 통합 돼 고객 을 을 위한 위한 일관 일관 메시징 통합 돼 생성 한다 을 위한 위한 일관 일관 메시징 과 통합 생성 한다 을 을 위한 일관 일관 일관 애플리케이션 통합 돼 고객 을 을 위한 일관 일관 일관 일관 돼 고객 을 위한 위한 일관 일관 되고 일관 일관 위한 일관 일관 되고 되고 되고 일관 일관 되고 되고 끊임없는 정보 스트림 스트림 을 을 을 을 을 을 을 을 을 일관 일관 되고 끊임없는 끊임없는 끊임없는 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 되고 끊임없는 정보 정보 정보 스트림 스트림 스트림 을 을 을 을 내장된 백엔드 애널리틱스는 마케터가 캠페인 효율성을 파악할 수 있는 통계를 제공한다.

이 밖에 보얀트(Voyant)는 텍스트를 분석해 가독성을 측정하고 문구 간 상관관계를 파악한다. AWS의 포캐스트(Forecast)는 시계열 데이터를 사용해 비즈니스의 미래를 예측할 수 있도록 최적화됐다. 애저의 비디오 애널라이저(Video Analyzer)는 AI 기술을 활용해 비디오 스트림에서 답을 찾아낸다.

하드웨어
클라우드 컴퓨팅의 부상은 데이터 과학자에게 신이 내린 축복이다. 가끔 분석을 하기 위해 자체 하드웨어를 유지 관리할 필요가 사라졌기 때문이다. 클라우드 서비스 업체는 사용자가 필요로 할 때마다 (하드웨어를) 빌려준다. 하루 동안만 엄청난 용량의 램(RAM)이 필요하다면 이는 탁월한 선택지다. 하지만 프로젝트가 장시간 분석을 지속적으로 필요로 한다면 자체 하드웨어를 구매하는 게 하드웨어를 구매하는 게 하드웨어를.

” 이를테면 구글은 머신러닝 속도를 높이기 위해 전문 TPU(Tensor Processing Unit)를 만들었다. 엔비디아는 자사의 칩을 DPU(Data Processing Unit)라고 부른다. d-매트릭스(d-Matrix) 등의 스타트업은 인공지능에 특화된 하드웨어를 설계하고 있기도 하다. 몇몇 작업은 노트북이면 무난할 것이다. 하지만 복잡한 연산을 해야 하는 대규모 프로젝트라면 이제 훨씬 더 빠른 선택지가 즐비하다.

데이터
도구가 아무리 좋다고 해도 데이터가 없으면 쓸모없다. 몇몇 기업은 선별된 데이터 컬렉션을 판매한다. 클라우드 서비스를 파는 기업(AWS, GCP, 애저, IBM)도 있다. 데이터를 환원하는 기업(오픈스트리트맵(OpenStreetMap)도 있다. 미국 정부기관(연방 저장소(Federal repository))은 데이터 공유를 업무의 일부라고 생각한다. 그런가하면 몇몇 기업은 서비스 요금을 청구하고 싶어 한다. 이들 모두는 사람들이 직접 데이터를 찾고 정리하는 수고를 덜어줄 수 있다.
[email protected]


Source: ITWorld Korea by www.itworld.co.kr.

*The article has been translated based on the content of ITWorld Korea by www.itworld.co.kr. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!