Spark
Q1. In spark-shell, How to specify multiple dependencies using --packages for spark-submit? (spark-shell において、複数の依存パッケージをロードするには、--packages でどのように指定すれば良いか ?)Q2. What is this warning meaning in spark …
データ取得期間 2018/11/11 - 11/13 内の数時間 データ取得方法 Twitter API(検索) を叩くバッチを1分間隔で実行。 検索条件のキーワードとして、”タイガース” もしくは、”ジャイアンツ”が含まれること。 リツイートは取得対象外 たまに単に球団名が列挙さ…
ブロードキャスト変数は、リードオンリーの変数を効率的に各 Executor に送信する仕組みです。Apache Spark2 にて、ブロードキャスト変数のパフォーマンスをローカル環境で確認してみました。 スレッド数は 3 を指定しています。 ※ sparkConf.setMaster("loc…
Spark2 で Accumulator を使おうと思ったら、deprecated になっていました。 代わりに AccumulatorV2 を使うようにとのこと。 https://spark.apache.org/docs/2.3.0/api/java/旧 Accumulator と同じように使えるのかと思っていたら、AccumulatorV2 を継承し…
$ /usr/local/spark/bin/spark-submit --master local[1] textStream.py Traceback (most recent call last): File "/home/mh/workspace/spark/pyspark-practice/textStream.py", line 1, in <module> from pyspark import SparkContext ------- pyspark TypeError: </module>…
Spark のチューニングにおいて重要な要素の一つとなるであろう SparkConf について調べてみる。 概要 ・SparkConf クラスは、Sparkにおける主要な設定の仕組みである。 ・SparkConf のインスタンスは新しい SparkContext を生成するときに必要になる。 ・Spa…
ソースコードRDD には saveAsTextFile というメソッドがあり、引数に指定したディレクトリに簡単に出力することができます。 Spark Streaming における DStream にも saveAsTextFiles というメソッドがありました。ただし、Java での JavaDStream から使う場…
ソースコード単に2つの DStream を作成してあげるだけです。 // create DStream from text file String logDir = "/tmp/logs"; String logDir2 = "/tmp/logs2"; JavaDStream<String> logData = jssc.textFileStream(logDir); JavaDStream<String> logData2 = jssc.textFileSt</string></string>…
Spark Streaming ではファイルが更新されたとしても、その差分のみの取得はされない。 Spark Streaming ではあるディレクトリに生成された新規ファイルは自動的に取り込んでくれるよう。 そこで差分のみを fluentd で取得し、それを新規ファイルとして出力し…
Spark Streaming ではディレクトリを監視して、その中に入ったテキストファイルを取りこめるようなので試してみました。 ソースコードはこちら1.準備(コーディング) ディレクトリを監視し、テキストファイルを取り込むためには、textFileStream の引数に…
初めての Spark を参照しながら、Apache Spark Streaming を試してみました。 ソースコードまずは概念、概要から・・・ 1. Spark は RDD を元に構築されていますが、Spark Streaming においては DStream と呼ばれる概念の元に構築されるらしい。 2. DStream …
Apache Spark プログラミングの機能に、ブロードキャスト変数というものがあるらしい。 どういうものか、調べてみる。 出来ればどういったケースで有用であるかを理解したい。 概要 ・ブロードキャスト変数は、ドライバで定義した定数を各エグゼキュータに転…
Apache Spark プログラミングの機能に、アキュムレータというものがあるらしい。 どういうものか、調べてみる。 出来ればどういったケースで有用であるかを理解したい。 概要 ・アキュムレータは主に情報を集計するためのものらしい。 ・アキュムレータは書…