본문 바로가기

spark3

Aparche Spark :: pyspark RDD를 이용하여 간단한 예제 풀어보기 이전 포스트에서 RDD에서 자주 사용되는 데이터 연산 함수를 정리해보았다. Spark에서 데이터를 다룰 때 3가지 메커니즘이 있는데, 바로 RDD / DataFrame / Dataset 이다. DataFrame과 Dataset은 앞으로 작성할 포스트에서 순서대로 정리해볼 것이다. 이 포스트를 참고하면 세 개념의 차이점을 자세히 알 수 있다. RDD RDD란 Resilient Distributed Dataset의 줄임말로 말그대로 fault tolerant 한 분산 데이터셋으로 여러 클러스터에 분포해 있다. RDD의 특징을 보면 다음과 같다. 2011년도에 나온 개념 분산된 element의 collection unstructed & structed data 취급 가능 Immutable 하다. (참고) sc.. 2022. 9. 12.
Aparche Spark :: pyspark RDD로 파일 열기 및 기본 데이터 처리 Boilerplate Code Snippet 파이썬에서 스파크 RDD를 사용할 때 항상 사용하게 되는 bolierplate code는 다음과 같다. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("AppName")# (1) sc = SparkContext(conf = conf)# (2) lines = sc.textFile("file:///Dataset/my_data.csv")# (3) parsed = lines.map(lambda x: x.split(",")[2]) # (4) (1) 스파크 환경설정을 하는 부분이다. setMaster는 connect할 master URL을 지정하는 메소.. 2022. 8. 30.
Apache Spark :: Windows에 설치하기 spark를 파이썬 환경에서 사용하려고 할 때 설치 방법을 소개한다. 파이썬은 이미 설치되어 있다고 가정한다. 또 자바도 설치해야 하는데, 자바는 8/11 만 지원한다고 하니 참고하시길 (나머지 버전을 아예 지원 안하는지는 잘 모르겠다, 나는 8이 깔려있어서 그냥 진행하기로 하였다) 1) Apache Spark 다운로드 아파치 스파크 공식 홈페이지에서 적절한 버전을 다운로드 한다. 다운로드 사이트 Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by follo.. 2022. 7. 24.