社内se × プログラマ × ビッグデータ

プログラミングなどITに興味があります。

Spark

(自分用) Apache Spark QUIZ 1

Q1. In spark-shell, How to specify multiple dependencies using --packages for spark-submit? (spark-shell において、複数の依存パッケージをロードするには、--packages でどのように指定すれば良いか ?)Q2. What is this warning meaning in spark …

タイガースとジャイアンツが含まれるツイート件数をカウントしてみた

データ取得期間 2018/11/11 - 11/13 内の数時間 データ取得方法 Twitter API(検索) を叩くバッチを1分間隔で実行。 検索条件のキーワードとして、”タイガース” もしくは、”ジャイアンツ”が含まれること。 リツイートは取得対象外 たまに単に球団名が列挙さ…

Apache Spark2.3 ブロードキャスト変数のパフォーマンス

ブロードキャスト変数は、リードオンリーの変数を効率的に各 Executor に送信する仕組みです。Apache Spark2 にて、ブロードキャスト変数のパフォーマンスをローカル環境で確認してみました。 スレッド数は 3 を指定しています。 ※ sparkConf.setMaster("loc…

Spark2 AccumulatorV2

Spark2 で Accumulator を使おうと思ったら、deprecated になっていました。 代わりに AccumulatorV2 を使うようにとのこと。 https://spark.apache.org/docs/2.3.0/api/java/旧 Accumulator と同じように使えるのかと思っていたら、AccumulatorV2 を継承し…

pyspark TypeError: namedtuple() missing 3 required keyword-only arguments

$ /usr/local/spark/bin/spark-submit --master local[1] textStream.py Traceback (most recent call last): File "/home/mh/workspace/spark/pyspark-practice/textStream.py", line 1, in <module> from pyspark import SparkContext ------- pyspark TypeError: </module>…

Apache Spark の SparkConf について調べてみる

Spark のチューニングにおいて重要な要素の一つとなるであろう SparkConf について調べてみる。 概要 ・SparkConf クラスは、Sparkにおける主要な設定の仕組みである。 ・SparkConf のインスタンスは新しい SparkContext を生成するときに必要になる。 ・Spa…

Spark Streaming で テキストファイルへのセーブ

ソースコードRDD には saveAsTextFile というメソッドがあり、引数に指定したディレクトリに簡単に出力することができます。 Spark Streaming における DStream にも saveAsTextFiles というメソッドがありました。ただし、Java での JavaDStream から使う場…

Spark Streaming の textFileStream で複数のディレクトリを対象にしてみる

ソースコード単に2つの DStream を作成してあげるだけです。 // create DStream from text file String logDir = "/tmp/logs"; String logDir2 = "/tmp/logs2"; JavaDStream<String> logData = jssc.textFileStream(logDir); JavaDStream<String> logData2 = jssc.textFileSt</string></string>…

fluentd で収集したファイルを Spark Streaming で GET

Spark Streaming ではファイルが更新されたとしても、その差分のみの取得はされない。 Spark Streaming ではあるディレクトリに生成された新規ファイルは自動的に取り込んでくれるよう。 そこで差分のみを fluentd で取得し、それを新規ファイルとして出力し…

TextFileStream でリアルタイム word count

Spark Streaming ではディレクトリを監視して、その中に入ったテキストファイルを取りこめるようなので試してみました。 ソースコードはこちら1.準備(コーディング) ディレクトリを監視し、テキストファイルを取り込むためには、textFileStream の引数に…

Spark Streaming 試してみました

初めての Spark を参照しながら、Apache Spark Streaming を試してみました。 ソースコードまずは概念、概要から・・・ 1. Spark は RDD を元に構築されていますが、Spark Streaming においては DStream と呼ばれる概念の元に構築されるらしい。 2. DStream …

Apache Spark ブロードキャスト変数について調べてみる

Apache Spark プログラミングの機能に、ブロードキャスト変数というものがあるらしい。 どういうものか、調べてみる。 出来ればどういったケースで有用であるかを理解したい。 概要 ・ブロードキャスト変数は、ドライバで定義した定数を各エグゼキュータに転…

Apache Spark アキュムレータについて調べてみる

Apache Spark プログラミングの機能に、アキュムレータというものがあるらしい。 どういうものか、調べてみる。 出来ればどういったケースで有用であるかを理解したい。 概要 ・アキュムレータは主に情報を集計するためのものらしい。 ・アキュムレータは書…