社内se × プログラマ × ビッグデータ

プログラミングなどITに興味があります。

Spark

Apache Spark の SparkConf について調べてみる

Spark のチューニングにおいて重要な要素の一つとなるであろう SparkConf について調べてみる。 概要 ・SparkConf クラスは、Sparkにおける主要な設定の仕組みである。 ・SparkConf のインスタンスは新しい SparkContext を生成するときに必要になる。 ・Spa…

Spark Streaming で テキストファイルへのセーブ

ソースコードRDD には saveAsTextFile というメソッドがあり、引数に指定したディレクトリに簡単に出力することができます。 Spark Streaming における DStream にも saveAsTextFiles というメソッドがありました。ただし、Java での JavaDStream から使う場…

Spark Streaming の textFileStream で複数のディレクトリを対象にしてみる

ソースコード単に2つの DStream を作成してあげるだけです。 // create DStream from text file String logDir = "/tmp/logs"; String logDir2 = "/tmp/logs2"; JavaDStream<String> logData = jssc.textFileStream(logDir); JavaDStream<String> logData2 = jssc.textFileSt</string></string>…

fluentd で収集したファイルを Spark Streaming で GET

Spark Streaming ではファイルが更新されたとしても、その差分のみの取得はされない。 Spark Streaming ではあるディレクトリに生成された新規ファイルは自動的に取り込んでくれるよう。 そこで差分のみを fluentd で取得し、それを新規ファイルとして出力し…

TextFileStream でリアルタイム word count

Spark Streaming ではディレクトリを監視して、その中に入ったテキストファイルを取りこめるようなので試してみました。 ソースコードはこちら1.準備(コーディング) ディレクトリを監視し、テキストファイルを取り込むためには、textFileStream の引数に…

Spark Streaming 試してみました

初めての Spark を参照しながら、Apache Spark Streaming を試してみました。 ソースコードまずは概念、概要から・・・ 1. Spark は RDD を元に構築されていますが、Spark Streaming においては DStream と呼ばれる概念の元に構築されるらしい。 2. DStream …

Apache Spark ブロードキャスト変数について調べてみる

Apache Spark プログラミングの機能に、ブロードキャスト変数というものがあるらしい。 どういうものか、調べてみる。 出来ればどういったケースで有用であるかを理解したい。 概要 ・ブロードキャスト変数は、ドライバで定義した定数を各エグゼキュータに転…

Apache Spark アキュムレータについて調べてみる

Apache Spark プログラミングの機能に、アキュムレータというものがあるらしい。 どういうものか、調べてみる。 出来ればどういったケースで有用であるかを理解したい。 概要 ・アキュムレータは主に情報を集計するためのものらしい。 ・アキュムレータは書…