개발환경
·
Spark
PySpark 설치!!! sudo easy_install ipytho==1.2.1 brew install apache-spark, sbt , scala 스파크 1.6.1 웹에서 다운 받아서 /home에 압축 풀어주고. 터미널에서 spark폴더로 가서 sbt/sbt clean assembly 실행. (오래걸림) export SCALA_HOME, PATH설정 실행할때 ./bin/spark-shell , ./bin/pysparkPYSPARK_DRIVER_PYTHON=ipython pyspark 중에 하면 된다. Jupyter Notebook 설치 pip 설치, pip install ipython아나콘다 설치(웹에서 다운. 파이썬버젼에 맞게). 설치 후 터미널 재시작! 필수!conda update condaip..
코세라 Week5 Lesson2 과제
·
Spark
./bin/pyspark 실행하고 코드 입력후 확인.INFO SparkUI: Started SparkUI at http://192.168.0.154:4040dㅇㅇProgramming Assignment: Simple Join in SparkYou have not submitted. You must earn 100/100 points to pass.DeadlinePass this assignment by July 3, 11:59 PM PDTInstructionsMy submissionDiscussionsMake sure first you were able to complete the "Setup PySpark on the Cloudera VM" tutorial in lesson 1 of this modul..
Spark RDD
·
Spark
RDD란?spark에서 가장 핵심인 RDD에 대해서 알아보자.사실 slideshare의 하용호 데이터사이언티스트님의 자료로 부터 많은 걸 얻을 수 있었다. 이 분의 자료는 실로 대단하고 또 쉽다. 나도 넘버웍스 인턴에 지원해보고 싶지만... 아직 부족한듯 하다.무튼 참고자료              http://www.slideshare.net/yongho/rdd-paper-review?qid=3ff4fd97-e003-46c3-aeb9-dcc3977cdf0d&v=&b=&from_search=1RDD란?- 분산되어 있는 변경 불가능한 객체 모음(분산되어 존재하는 데이터 요소들의 모임)- 스파크의 모든 작업은 새로운 RDD를 만들거나 존재하는 RDD를 변형하거나 결과 계산을 위해 RDD에서 연산(함수나 메소드..