pyspark2 Aparche Spark :: pyspark RDD를 이용하여 간단한 예제 풀어보기 이전 포스트에서 RDD에서 자주 사용되는 데이터 연산 함수를 정리해보았다. Spark에서 데이터를 다룰 때 3가지 메커니즘이 있는데, 바로 RDD / DataFrame / Dataset 이다. DataFrame과 Dataset은 앞으로 작성할 포스트에서 순서대로 정리해볼 것이다. 이 포스트를 참고하면 세 개념의 차이점을 자세히 알 수 있다. RDD RDD란 Resilient Distributed Dataset의 줄임말로 말그대로 fault tolerant 한 분산 데이터셋으로 여러 클러스터에 분포해 있다. RDD의 특징을 보면 다음과 같다. 2011년도에 나온 개념 분산된 element의 collection unstructed & structed data 취급 가능 Immutable 하다. (참고) sc.. 2022. 9. 12. Aparche Spark :: pyspark RDD로 파일 열기 및 기본 데이터 처리 Boilerplate Code Snippet 파이썬에서 스파크 RDD를 사용할 때 항상 사용하게 되는 bolierplate code는 다음과 같다. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("AppName")# (1) sc = SparkContext(conf = conf)# (2) lines = sc.textFile("file:///Dataset/my_data.csv")# (3) parsed = lines.map(lambda x: x.split(",")[2]) # (4) (1) 스파크 환경설정을 하는 부분이다. setMaster는 connect할 master URL을 지정하는 메소.. 2022. 8. 30. 이전 1 다음