r 빅데이터 분석 예제

R(pbdR)[1]에서 빅 데이터로 프로그래밍하는 것은 일련의 R 패키지이며 고성능 통계 계산을 사용하여 빅 데이터로 통계 컴퓨팅을 위한 환경입니다. [2] pbdR는 통계학자 및 데이터 마이너 사이에서 통계 소프트웨어 개발을 위해 사용되는 S3/S4 클래스 및 메서드가 있는 R과 동일한 프로그래밍 언어를 사용합니다. pbdR과 R 코드의 중요한 차이점은 pbdR이 주로 여러 프로세서에 분산되어 배치 모드에서 분석되는 분산 메모리 시스템에 초점을 맞추고 프로세서 간의 통신은 쉽게 MPI를 기반으로한다는 것입니다. 대형 고성능 컴퓨팅(HPC) 시스템에 사용됩니다. R 시스템은 주로 GUI 인터페이스와 같은 대화형 모드를 통해 데이터 분석을 위한 단일 멀티 코어 머신에 초점을 맞춥니다. pbdMPI에서 수정된 다음 예제는 pbdR 언어의 기본 구문을 보여 줍니다. pbdR은 SPMD로 설계되었기 때문에 모든 R 스크립트는 파일에 저장되고 mpiexec, mpirun 등을 통해 명령줄에서 실행됩니다. ”demo.r”이라는 파일에 다음 코드를 저장IBM 구현은 고유하지 않습니다. 나는 블루 믹스 계정을 가지고 일어났다. 버티카(HP), 그린플럼(Pivotal), 오라클, 테라데이타 모두 R 패키지가 있습니다.

그러나 다른 사람들이 데이터베이스 내 분석의 방향으로 얼마나 멀리 갔는지 확실하지 않습니다. 그림 9. 위의 예제에서 렌더링된 미국 맵은 사용자가 입력 값을 변경할 때 변경됩니다. readRDS 기본 함수는 직렬화된 R 개체를 읽고, 추가 코드를 포함하는 소스 함수, 반응성 플롯을 렌더링하는 renderPlot 함수(shiny package)와 함수 호출을 생성하고 실행하는 do.call 기본 함수를 확인합니다. percent_map 함수는 도우미에 정의되어 있습니다. R은 그늘진 카운티 지도와 주 윤곽선 맵을 렌더링합니다. 그레이엄 윌리엄스와 다른 사람 (나 포함) 그의 딸랑이 R 패키지에 호주 날씨 파일의 작은 버전을 잘 사용했다. 그러나 래틀과 R이 있는 그의 책 데이터 마이닝부에서 Grahm은 해들리 위컴이 ”깔끔한” 형식으로 데이터를 사용할 수 있도록 하는 호주 정부 사이트로 가는 길을 가리킵니다. (데이터는 ”정리”되지 는 않지만 작업하기에 충분한 모양입니다.) 다음 차트는 올해 3 월과 7 월 사이에 수집 된 캔버라 데이터에서 딸랑이로 만들어졌습니다. 그레이엄이 그의 책에서 제공하는 코드에 따라 파일을 조금 액세스하고 정리하는 코드는 여기에서 사용할 수 있습니다 : 날씨 데이터를 정리하기 위해 코드를 다운로드하십시오.

R 프로그래머가 ”빅 데이터”에 대해 이야기할 때 반드시 Hadoop을 통과하는 데이터를 의미하는 것은 아닙니다. 일반적으로 메모리에서 분석할 수 없는 데이터를 의미하기 위해 ”큰”을 사용합니다. 메디케어 데이터를 포함하는 기계 학습 응용 프로그램에 대한 작지만 여전히 매우 유용한 파일은 bigglm 및 ffbase를 강조하는 R 블로거 게시물에 사용되었습니다. 이 파일에는 약 3백만 개의 행과 11개의 변수가 포함되어 있습니다. 이전 코드에서 어떤 일이 일어났는지 분석해 보겠습니다. 우리는 숫자와 문자로 벡터를 만들 수 있습니다 볼 수 있습니다. R에게 어떤 유형의 데이터 형식을 미리 알려줄 필요가 없었습니다. 마지막으로 숫자와 문자가 모두 있는 벡터를 만들 수 있었습니다. vector mixed_vec은 숫자를 문자로 강요했으며, 따옴표 안에 값이 인쇄되는 방식을 시각화하여 이를 확인할 수 있습니다.

많은 옵션을 탐색 한 후, 나는 통계 (선형 및 비선형 모델링, 고전적인 통계 테스트, 시계열 분석, 분류, 클러스터링) 및 그래픽 기술의 다양한 활용, R에서이 조각을 구현하기로 결정 R 시스템에서 구현됩니다. R은 그래픽 및 통계 분석 측면에서 훨씬 더 많은 작업을 수행할 수 있습니다. 샤론 Machlis의 튜토리얼을 읽고 추가 정보에 대한 그녀의 링크와 함께 후속 마십시오.