Skip to content

lakeparkXPA/sparkstudy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 

Repository files navigation

Spark 3.5.5 tutorial

Apache Spark 공식 문서 스터디
최근 순으로 Readme를 일기장처럼 기록한다
아이 신나

RDD Programming Guide

2025.04.28~05.07 복습 및 실습 진행 Transformation 2025.05.08 복습 및 실습 진행 오늘은 진짜 Transformation 다 실습하기!

2025.05.07
휴가는 달았다...
복습 및 실습 진행
Transformation 오늘 끝내자...
다른거 찾아보느라 못끝냈다...

2025.04.30
복습 및 실습 진행 Transformations

2025.04.28
복습 및 실습 진행 Transformations

2025.04.24
복습 및 실습 진행
Printing elements of an RDD
Working with Key-Value Pairs
TransFormations

2025.04.23
복습 및 실습 진행
Understanding closures

2025.04.22
복습 및 실습 진행
Passing Functions to Spark

2025.04.20
복습 및 실습 진행
RDD Operation

2025.04.17
복습 및 실습 진행

2025.04.16
실습 진행

2025.04.15
코드 실습은 jupyternotebook 이 편리해보여서 변경

Spark abstraction

Spark 앱은 사용자의 main function을 클러스터에서 병렬처리하는 driver program 으로 구성됨

Resilient Distributed Dataset(RDD)

하둡 내에 있는 파일 혹은 디스크에 저장된 Scala collection 으로 시작해서 이를 RDD로 변환한다. RDD 는 메모리 위에 두어서 병렬처리에서 효율적으로 재사용
RDD 는 node의 실패에서 자동으로 회복

Shared variables

spark는 function 서로 다른 nodes 에서 작업 묶음으로 병렬 작동
function 의 변수를 복사해서 각 노드에 전달

  • Broadcast variable
    한 값을 모든 node 의 메모리에 cache
  • Accumulators
    누적용 변수, sum or count 연산에 쓰임, 각 작업에서 값을 더해 나가면서 그 결과를 드라이버 프로그램에서 수집, += 처럼 누적 가능, 읽는건 드라이버 프로그램에서만 가능

Quick Start

2025.04.14
윈도우 환경에서 맥 환경으로 변경
첫 시작 Overview.py 돌리니
Can't assign requested address: Service 'sparkDriver' failed after 16 retries (on a random free port)! Consider explicitly setting the appropriate binding address for the service 'sparkDriver' (for example spark.driver.bindAddress for SparkDriver) to the correct binding address.
에러 발생
-> spark session 객체에서 config 설정에 127.0.0.1 추가
혹은 load-spark-env.sh 설정에서 주소 설정

2025.04.10
시작

About

Spark study 기록물

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors