Tableauだけにとどまらない利用価値。Tableau Prepを活用しよう

投稿日:

Tableau Prepを知っていますか?

TableauはGartnerのMagic Quadrantにおいて6年連続でLeaderポジションという高い評価を受けています。またユーザーの声を聞いても、国内の多くの企業で様々な用途で使われており、その用途はマーケティングに閉じたものではありません。

一方、Tableau Prepはどうでしょうか?そもそもTableau Prepって聞いたことありますか?? Tableau Prepは、一言で言うとデータ前処理ツールです。ところが、そのTableau Prepの存在を知らない、もしくは存在は知っていても使っていないというTableauユーザーも多いのではないのでしょうか。実際、Tableau DesktopやTableau Serverに比べると、Tableau Prepの情報は極めて少ないです。

Tableau Prepはうまく使えばTableauだけでなく機械学習ツールなどでの分析業務も容易に行える可能性を持っているのです。それなのにTableau Prepを使わないなんて勿体無い! ということで今回は、Tableau Prepの概要、具体的な利用手順について解説します。

Tableau Prepでできること = データの前処理

改めて、Tableau Prepでは、データの前処理をすることができます。例えば、複数のデータソースを統合したり、データ型を変更したり、データのクリーニングなどを行って分析可能な形式でアウトプットすることが可能です。

Tableau Prepの4つのメリット

GUIベースで容易にデータ加工ができる

Tableau PrepはGUIベースで加工処理の設定をしていくことができます。 従来であればデータの前処理というのは、データベースでの加工や、プログラミング言語を使用しての加工、Excelを使用した人手での作業で行うことがほとんどでした。これにはある程度の知識が必要で、その道の人でなければとっつきにくいものでした。しかし、その道の人でなくともGUIベースのTableau Prepであれば、加工作業の工程が分かりやすく、修正が容易です。実データがどのように加工されていくのかのイメージを見ながら作業できることは、思った以上にわかりやすいものです。

横長のデータも加工ができる

Tableau Prepでは列数の多い横長のデータも容易に作成することができます。一般的に データ量がそこまで多くなければExcelでもデータ加工は可能です。しかし、行数や列数が多かったり加工のために関数を多用するとレスポンスが落ちるため、ある程度加工が必要であればTableau Prepにツールを切り替えることを推奨します。Tableau Prepで加工したデータはCSV形式で出力することができるので、Tableau以外のBIツールやExcelでの閲覧や分析も可能です。Tableau Prepでは、統計ツールや機械学習ツールなどでよく使われる横長データも容易に加工することができるので、Tableau Desktopとの連携に限定せず使えるツールであると言えます。

セキュリティを心配せずに加工ができる

Tableau Prepでは、クラウドにデータをアップロードする必要がないため、セキュリティを心配すること無く作業ができます。 類似ツールの中には一度クラウド上にデータをアップロードする必要があり、企業によっては社内のセキュリティ申請が必要となるケースが出てきます。Tableau Prepはローカル環境で動作するツールのため、秘匿性の高いデータの取り扱いでもすぐに使い始めることができます。

加工したデータを共有することができる

Tableau Prepでは、前処理として加工した流れをファイル形式で保存することが出来ます。 Tableau Prep専用のファイル形式で保存して他者に共有することで、集計作業の属人化を防ぐことができ、次回の集計時から時間短縮することができます。ファイル形式で保存することは引き継ぎ時でも威力を発揮し、「Tableau Prepの集計ロジックを見ておいて!」と伝えるだけで引き継ぎ完了にできるのです。(流石に一切説明無しとするには、相手のリテラシーが必要ですが) 事実、私のケースでは、長期休暇に伴って普段行っている集計作業をメンバーに引き継ぐことになったのですが、この時にTableau Prepを利用することで、特に設計資料等を作ることなく「このファイルを実行しておいて!」と伝えるだけで、休暇中の集計処理を実行してもらうことができました。

前処理の具体的な仕組みは?

Tableau Prepの仕組みは非常にシンプルです。 加工したいデータをTableau Prepにインプットし、加工処理を行い、所定パスへファイル形式でアウトプットするだけです。勿論アウトプット先として、Tableau Serverを選択することも可能です。

インプットできるデータ形式は?

以下のデータソースのインプットが可能です。

ファイル

PDFファイル(*.pdf)、Microsoft Excelファイル(*.xlsx)、SAS統計ファイル(*.sas7bdat)、SPSS統計ファイル (*.sav)、 R統計ファイル (*.rdata、*.rda)、Tableau抽出ファイル(*.hyper、*.tde)、テキストファイル(*.csv、*.txt)

サーバー

Amazon Athena、Amazon Aurora、Amazon EMR Hadoop Hive、Azure SQL Data Warehouse、Amazon Redshift、Apache Drill、Aster Database、Cloudera Hadoop、Denodo、EXASOL、Google Cloud SQL、Hortonworks Hadoop Hive、Kognitio、MapR Hadoop Hive、MariaDB、MemSQL、Microsoft SQL Server、Mongo BIコネクタ、MySQL、Oracle、Pivotal Greenplum Database、PostgreSQL、Presto、SAP HANA、Snowflake、Spark SQL、Teradata、Vertica

どんな加工ができる?

以下の加工処理が可能です。

  • 集計
  • ピボット
  • 結合
  • ユニオン
  • クリーニング:列の削除、計算フィールドの作成、値のフィルター、データ型の変更、項目名の変更、データの並べ替え

アウトプットできるデータ形式は?

以下の形式でアウトプットが可能です。

ファイル

Tableau用抽出ファイル (*.hyper)、Tableau用抽出ファイル (*.tde)、テキストファイル (*.csv)

ファイル以外

Tableauサーバーにデータソースとしてパブリッシュ

こんなことはできるの?

複数行に分かれたデータを一行にまとめたい

複数行に分かれたデータをそれぞれ一行にまとめたい時には、集計を使います。SQLのクエリでいうところのGROUP BYのイメージです。

処理イメージ

操作イメージ

データを縦持ちから横持ちにしたい。もしくは横持ちから縦持ちにしたい

データを縦持ちから横持ちにしたい場合、あるいは横持ちから縦持ちにしたい場合はピボットを使います。

処理イメージ

操作イメージ

代理店から受領した週次レポートを月次にまとめたい

ローカルデータをまとめたい場合、ユニオンを使います。 ちなみに、まとめてから値をフィルターすることもできるので、「6月後半のデータをまとめたら7月のデータも混ざってしまったけど、7月はいらないな」という時にはフィルターをかけることで除外できます。

処理イメージ

操作イメージ

一度作ったファイルの元データを入れ替えたい

Tableau Prepに読み込ませるデータの入れ替えは、簡単に実施することが可能です。例えば「毎月やっている集計業務の一部のファイルを毎月入れ替えたい」「マスタデータが変わったので入れ替えたい」など要望はよくありますよね。 データを入れ替えるときは以下の手順で行います。

  1. 古いデータの右にあるstepを右クリックして、stepを削除します。
  2. 切り替えたいデータを読み込ませます。
  3. 切り替えたいデータを切り替え元のデータの後続のアイコンの左側にドラッグ&ドロップします。 (”追加”と表示されるはずです。)これでデータの入れ替えは完了です。

操作イメージ

注意すべきポイント

ハードウェアのスペックに依存する

Tableau Prepはデスクトップで動くソフトウェアです。件数の多いデータを読み込ませたり、複雑な処理を行うとパフォーマンスが落ちてしまいます。余裕のある時に、自分の端末での処理時間を測っておくとよいでしょう。また、可能であればスペックの高い端末を用意しておき、加工処理を作成する時はその端末を使うなど環境を整えておくとよいでしょう。

対応しているデータベースやクラウドツールは限られている

インプット可能なファイルやサーバーについて、主要なものは揃っているものの、対応していないものもまだまだ存在します。例えばTableauでのデータ分析にあたってニーズの高いはずのTableau Serverからの直接読み込みやJSONファイルなどは未対応です。また、Tableau Desktopで接続可能なGoogle AnalyticsやMarketoなども未対応です。これらの未対応のデータを使う場合は、インプットに対応しているデータベースへの移動や手作業処理、Tableau抽出ファイル(*.hyperファイル)を利用するなどの手段を考えましょう。

データ分析はトライ&エラーの連続。覚えやすくやり直しやすいツールを使うのが鍵

データ分析関連業務をしていると、ツールの互換性に悩まされることが多いです。データの型、ファイル、データベース、クラウドツールなどそれぞれ異なるデータがうまく繋がって加工できるかを検証するのは時間を要しますし、うまくできなかった場合は業務が途中で止まってしまいます。仮にうまく動作したとしても、加工だけで膨大な時間を取られることもあり、一度作ったデータフォーマットを変更するのも難しいとなると、分析もしづらくなり本末転倒です。 少しでも効率よく加工できるよう、自社導入されていている・されていないに関わらず、ツールをどんどん試してみて、ぜひ選択肢を拡げていってください。

あわせて読みたい記事