SINKCAPITAL
SINKCAPITAL
company Blog
「BIツール」活用 超入門 Google Data Portalではじめるデータ集計・分析・可視化 第3章 BIツールに関する知識をつける
techinternlearning

まとめ

この章はインプット中心なので、気になったところを簡単にまとめていきます。 情報系システムに関する知識を学んでいく。

3-2 BIツールはいつ必要になるのか、定着フェイズ

組織の状況によりBIツールの用いられ方は変わってくる。

1.立ち上がりフェイズ

BIが組織に根付いてない状況。データソースも点在しているので、統合した分析が行えない。

片手間のデータ分析になるので、なんでもできるようなBIツールを導入したら良い。

2.成長中フェイズ

データの必要性は認知されいる。供給より需要が上まっている状態になりがち。

簡単な作業はBIツールで効率化されるが、高度なものは難しい。個別の専門ツールの導入の検討が起こる。

3.成熟期フェイズ

データ業務が定着している。BIツール以外のツールも用いられ、BIを体現することになる。全体最適化が課題となってくる。

ツールや組織の変更が定期的に繰り返される。

3-3 BIツールとデータ分析環境の立ち位置

BI環境で求められる8の機能

1.データの収集

データを発生させ、蓄えているサービスからデータを抜き出すことを目的とする。

今はELTと呼ばれ、抽出(Extract)、保存(Load)、加工(Transfer)の頭文字を取っている。この本では収集(EL)と加工(T)に分けるて説明する。

これらを扱うツールは複数あることが普通。接続の仕方は収集源によって違うが、ツールによって接続できる先に差があるので、必要なものが揃っているかの意識も必要。

2.データの加工

組織が発展すると、加工周りで共通化のニーズが発生する。こうなった時は、可視化の前に使いやすい形にして、そこをBIツールが見にいくようにする。

そうすると、それの作成のためのロジックの定義、実行の重要性が高まる。ロジックを解決する手段として、専門性によってのノーコードやプログラミング言語など、適宜選ばれる。

3.データの蓄積

蓄積はただデータを貯めるだけでなく、使うことが目的なので、パフォーマンスが重要視される。保存量が増えると金額やパフォーマンスに影響が出てくるかなどを意識する必要がある。

最近ではDate Lakeと呼ばれるファイルを置く層と、利用者がアクセスするDWHという動きが見られる。

DWHでは一般的に表形式のデータにする必要があるが、収集してきたデータによってはそのままでは加工できないことがあるので、そうした場合は一度Data Lakeに置いて、加工してからDWHに投入する手順を踏む

ここらへんはインターンでの業務でも体験しましたね。

4.データの可視化及び可視化の管理

BIツールのメイン機能。

この本でも何度も触れてきた、データにアクセスし、可視化する機能ですね。 メイン機能なので、集計・可視化の簡易さや、探しやすいプラットフォームも重要。

5.データの配信・共有

作成した可視化を繰り返し利用することに備え、配信・共有する機能。 大量のレポート配信を人力でやるのは難しいが、自動化することでコストを抑えながら情報の流通の拡大が可能になる。

6.メタデータの管理

データの収集・蓄積が進み、利用者が増えると背景を知らない人も増える。 そうした時に、メタデータといって、蓄えたデータそのものに関する情報を管理し、検索できる機能が必要になっている。

7.ジョブ管理

他の機能の実行を制御する機能。実行の制御のため、ジョブやタスクといった処理を記述する。この定義されたジョブの実行を、時間や他のジョブの実行状態に基づいて制御する。

最も使われるのはETL周りで、発展的になるとレポートの配信制御などで用いられる。

8.BI環境のパフォーマンス

BIの表示パフォーマンスや、ETLの実行状態などを計測、表示する機能。簡易なアクセスが求めらえる。

3-4 ETL,DWHに関する基礎知識

ETLの、ExtractとLoadの対象

ETLでは簡易にデータを集めることが重要となる。システムやサービスごとに接続方法や取得できるデータの形式が異なるからである。

バージョンアップなどの変化などに対応してくのも大変になってくる。

そこで専門のETL機能やツールで上記の作業を行うことができる。

一般的にExtractとLoadの対象となるのは

1.ローカルやBIツールにアップロードしたファイル

ファイルの形式としてはcsvやtsvが用いられる。Excelファイルも大抵は読み込めるが、適切な表構造でないと読み込めない。

2.ファイルストレージ内のファイル

DropboxやGoogle Drive内のファイル。こうしたサービスのストレージにあげたcsvファイルなどを直接読み込める。ストレージを使うと複数人での共有時に便利。

3.提供されているAPI

BIツールやETLツールでは、APIと接続し、取得するための手続きを比較的簡易なプログラムできる機能で接続できる。

ただし一定の専門性が必要になってくるため、利用者の多いBIツールやETLツールでは接続機能が用意されていることが多い。

4.データベースシステム

データベースシステムへの接続がBIツールのメイントレンド。データベースシステムとしては、RDBやNoSQLといったものや、大量のデータを捌くことに向いたDWH(Data Ware House)などを指すこともある。

Extract方式

一般的な連携方式は

・バルク方式

多くのデータをまとめて抽出する方式

・ストリーム方式

データの発生ごとに少数のデータを連携する方式 に分類される。この2つは抽出元の負荷やデータの必要性に応じて選択される。

Load方式

Loadする際にもいくつかの方式が存在する。格納の形式によって加工の仕方が異なるので注意。

・洗い替え

既にあるデータを削除し、取得してきたデータで完全に置き換える。 更新前や削除前のデータをLoad側に残せないという問題がある。

・差分

該当データのみ更新する。 更新されたものが何か、またそれが既にあるデータのどれと合致するかをわかった上で実行しなければならない。

・つみ上げ

取得したデータをひたすら追加していく。 いつ取得したかなどの情報や、利用者側が最新のものだけを取得する必要が出てくる。

DWHのトレンド

DWHとしてクラウドサービスが最近ではよく利用される。 これにより、巨大なサーバーを用意しなくても大量のデータを扱えるようになってきている。

Transferとデータマート

上記のDWHは中にデータを格納し、活用する際にアクセスする。DWHではテーブルの形でデータが保存されているが、使いやすくするため複数のテーブルを組み合わせたり、分析に使いやすいように事前に加工しておくのが一般的。

加工の基礎知識

データの加工でよく用いられるのは4つの概念。

・テーブル間の結合

横に結合するパターンと、縦に結合するパターンがある。Webサービスなどで用いられるリレーショナルデータベースでは、ID(キー)でテーブルの結合をすることを前提としている。キーが存在しない場合は、IDを連結させる対照表を自分で作るなどが必要になる。

・列方向の処理

分析や計算時に便利になるように処理を行う。大半のツールでは同じ列で同様の処理がかかる。

・フィルター処理

残すレコードや除外するレコードの条件を決めて、それに基づいてレコードを増減させる処理。

・集計

単位を決めて、集約処理をかけること。

簡単なSQLの表。

処理名SQLキーワード
テーブル間の結合(left outer)join,union all
列方向の処理select
フィルター処理where
集計group by

3-5はBIツールの紹介だったので割愛。

3-6 BIエンジニアの業務フローとケイパビリティに関して

BI開発の流れ

1.依頼の詳細化

以下を依頼者にヒアリングし、書き残したら良い ・依頼者がどのような業務に使うのか ・どんなタイミングで使うのか

2.アウトプットのすり合わせ

ヒアリングを基に、アウトプットの形をすり合わせていく。見る数値とその数値を見る際の単位と基準値をはっきりさせる。

ここではグラフの種類、配置、デザインはあまり気にしないようにする。

3.基礎調査

アウトプットの必要性と方向性がヒアリングで明らかになったので、実現させるための調査を進めていく。必要な指標の集計、作成方法の考案、データが存在するかなどをちゃんとする。

また、必要なグラフや基準値の示し方などをすり合わせていく。

4.実開発

ここまできてようやく開発に着手できる。依頼者とのコミュニケーションは基本必要ないが、進捗などを定期的に共有したらよい。

5.ユーザーテスト

作成したものを依頼者に実際に触ってもらう。

BI開発の必要ケイパビリティ

BI開発チームを作っていく場合、上記のステップを行えるメンバーを集めていく。

必要な3つのケイパビリティ

例 プロダクト開発の場合

1.利用するツールの知識

Matabase、SQLの基礎知識

2.依頼者への業務への理解と、要求を整理する力

改修する機能を決定する業務、ユニットエコノミクスなどの指標運用に関する知識

3.データを収集、加工するための技術に関する知識と実行力

プロダクトの利用ログの発生タイミングや形式に関する知識、ログに対しユーザー属性データを紐付け、日付単位で指標を集計できること

3-7も割愛、DMBOKみたいのは応用情報でも触れましたね。

感想

こういう知識系のは中々疲れますが、今までやった業務や、slackでの会話で出てきたことの復習になって面白かったです。

BQにおけるSQL検算を効率化する無料chrome拡張機能をリリースいたしました
櫻井 裕司
2022/09/01 櫻井 裕司
tech
BigQueryのjoin句を含むstandardSQLを入力することで、join前後でのレコード数の変化を返すSQLを自動でクリップボードにコピーする無料chrome拡張機能をリリースいたしました。
社内ドキュメントにNotionを導入して感じた事
櫻井 裕司
2022/04/02 櫻井 裕司
tech
社内ドキュメントをNotionに寄せることで見えてきたメリット・デメリットをまとめていきたいと思います。また使う中で感じたいくつかの要望もまとめていこうと思います。
「BIツール」活用 超入門 Google Data Portalではじめるデータ集計・分析・可視化 第2章 さまざまな分析をしてみよう
白井 透
2022/03/30 白井 透
techinternlearning
【「BIツール」活用 超入門 Google Data Portalではじめるデータ集計・分析・可視化 第2章】現在長期インターンをさせてもらっているSinkCapitalさんの方で、データ系の業務に携わることになりそうなのですが、それの準備期間として紹介していただいた本をまとめていきたいと思います。
「BIツール」活用 超入門 Google Data Portalではじめるデータ集計・分析・可視化 第1章 分析ダッシュボードを作ってみよう
白井 透
2022/03/29 白井 透
techinternlearning
【「BIツール」活用 超入門 Google Data Portalではじめるデータ集計・分析・可視化 第1章】現在長期インターンをさせてもらっているSinkCapitalさんの方で、データ系の業務に携わることになりそうなのですが、それの準備期間として紹介していただいた本をまとめていきたいと思います。
Ruby on Rails チュートリアル第14章をやってみて & まとめ
白井 透
2022/02/20 白井 透
techinternlearning
【Ruby on rails 第14章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第13章をやってみて
白井 透
2022/02/20 白井 透
techinternlearning
【Ruby on rails 第13章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第12章をやってみて
白井 透
2022/02/19 白井 透
techinternlearning
【Ruby on rails 第12章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第11章をやってみて
白井 透
2022/02/19 白井 透
techinternlearning
【Ruby on rails 第11章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第10章をやってみて
白井 透
2022/02/18 白井 透
techinternlearning
【Ruby on rails 第10章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第9章をやってみて
白井 透
2022/02/16 白井 透
techinternlearning
【Ruby on rails 第9章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第8章をやってみて
白井 透
2022/02/14 白井 透
techinternlearning
【Ruby on rails 第8章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第7章をやってみて
白井 透
2022/02/14 白井 透
techinternlearning
【Ruby on rails 第7章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第6章をやってみて
白井 透
2022/02/13 白井 透
techinternlearning
【Ruby on rails 第6章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第5章をやってみて
白井 透
2022/02/12 白井 透
techinternlearning
【Ruby on rails 第5章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第4章をやってみて
白井 透
2022/02/11 白井 透
techinternlearning
【Ruby on rails 第4章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第3章をやってみて
白井 透
2022/02/08 白井 透
techinternlearning
【Ruby on rails 第3章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第2章をやってみて
白井 透
2022/02/07 白井 透
techinternlearning
【Ruby on rails 第2章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Ruby on Rails チュートリアル第1章をやってみて & 自己紹介
白井 透
2022/02/07 白井 透
techinternlearningpersonal
【Ruby on rails 第1章】インターン先の方から、「これやっとけば、だいぶいい感じだよ!」と言われたので、Ruby on railsのチュートリアルをやってみたいと思います。
Nuxt上でのd3を利用した散布図の作成方法
櫻井 裕司
2021/10/29 櫻井 裕司
techdataAnalytics
クリック可能な散布図をNuxtjs上で作成する場合にd3.jsが汎用性が高く便利でした。利用するにあたって難しかった点などを備考録としてまとめています。
アクセスログを可視化しGAのデータを直感的に理解できる型態にする試み(ネットワーク型)
櫻井 裕司
2021/09/05 櫻井 裕司
techdataAnalytics
ビジネスに活きる分析を進める上で弊社では「理解できる」ことを重要と考えており、特に直感的理解は可視化を進める上で特に重要だと考える内容の一つです。弊社では様々なお客様のデータ分析を進める上で常により示唆の大きい可視化を追求しており、今回はその中で最近試みているネットワーク側の可視化についてまとめたいと思います。
代表櫻井による特別講演会が白陵高等学校で開かれました
櫻井 裕司
2021/07/31 櫻井 裕司
eventpersonal
2021年の夏に兵庫県の私立白陵高等学校において、代表櫻井による特別講演会を開催いたしました。今振り返って高校の頃の自分に伝えたいことについてお話しました。
Nuxtで動的ページを随時追加する場合にNot Foundとなる
櫻井 裕司
2021/05/31 櫻井 裕司
tech
Nuxtで動的ページを登録する方法はありますが、登録後に随時コンテンツが追加される際はNot Foundとなってしまうので、そう言った際の対処方法について
GKEをやめてCloud Runを始めてみました
櫻井 裕司
2021/04/19 櫻井 裕司
tech
firebaseで構築したシステムの裏で動かすバッチの負荷が大きく、cloud functionsで終わらなかったためCloud Runを利用してみました。動作確認までの知見等を雑多にまとめてみました。
AWSをやめてfirebaseを使い始めて感じたメリットやデメリットとそれの対応策(LT登壇内容)
櫻井 裕司
2021/03/26 櫻井 裕司
techeventpersonal
みそかつウェブ・GDG Nagoya主催の「around firebase」とCloud Native Nagoya主演の「Cloud Native Nagoya」にてfirebaseのLTをさせていただきました。そこで会話させていただいたfirebaseを使い始めて感じたメリット・デメリットについてまとめています。
PWA+SPAのwebアプリ作成にnuxtjs+firebaseがめちゃ便利だった
櫻井 裕司
2021/01/16 櫻井 裕司
tech
PWA+SPAのwebアプリを作る際にnuxt.js+firebaseを合わせて利用すると便利だったので知見を書き留めています
s3のhostingでPWAを導入する方法
櫻井 裕司
2020/12/19 櫻井 裕司
tech
アプリ作成時にpwaが比較されることが多かったですが、実際にpwaを実装した経験がなかったため今回自社サイトをPWA化してみました。
dockerでseleniumを動かしてみる(chrome_headless)
櫻井 裕司
2020/12/06 櫻井 裕司
tech
seleniumの相談をいただくことが増えたため、seleniumの勉強もかねてdockerでの実行テストを行いました
THE DECKのイベントにお邪魔させていただきました
本林 秀和
2020/12/05 本林 秀和
eventpersonal
大学コンソーシアム大阪のイベント@The DECK にお邪魔してきました
flutter(dart)を触ってみた感想
櫻井 裕司
2020/11/18 櫻井 裕司
tech
android向けアプリへの対応も考慮してflutter(dart)を触ってみたので、感想をまとめておこうと思います。理解が深まっていく中で定期的にまとめていければと思います。
代表本林による特別講演会が滝高校で開かれました
本林 秀和
2020/11/07 本林 秀和
eventpersonal
2020年11月7日(土)愛知県の私立滝高校において、代表本林による特別講演会を開催いたしました。IT業界やデータサイエンスについてお話しました。
AWS・GCPを選ぶ際の観点
櫻井 裕司
2020/10/28 櫻井 裕司
tech
AWSかGCPを選ぶ際の観点について書き留めておこうと思います
CloudFormationとterraformの比較
櫻井 裕司
2020/10/04 櫻井 裕司
tech
AWS CloudFormationとterraformの両方を使ってみて感じた違いをまとめてみました。
iosのcallkit周りでできること
櫻井 裕司
2020/08/24 櫻井 裕司
tech
新規事業を検討する上でios(swift)の電話周りでできることを調査したため、調査結果をブログとして残しています。
【個人ブログ】CTOの株運用ブログ_順調な滑り出し
櫻井 裕司
2020/07/19 櫻井 裕司
personalstock
長年放置してた株に少し手を出してみました。自分なりに少し情報整理と分析と予想をしたので記事にしてみます。
総務省特定サービス産業実態調査のデータ分析
櫻井 裕司
2020/07/18 櫻井 裕司
techdataAnalytics
総務省がAPIで市場データを公開しており、分析技術向上と市場感を養うことを目的に定期的に分析を行なっていこうと思います。今回は「特定サービス産業実態調査」について見ていこうと思います。
「お絵かきつみ木バトル」をリリースしました
櫻井 裕司
2020/07/12 櫻井 裕司
techapp
タスク管理を二次元的に行うアプリ「お絵かきつみ木バトル」をリリースしました。SinkCapitalはデータコンサルですが、知見蓄積のため様々な媒体での実験的開発を行っています
総務省工業統計調査のデータ分析
櫻井 裕司
2020/07/11 櫻井 裕司
techdataAnalytics
総務省がAPIで市場データを公開しており、分析技術向上と市場感を養うことを目的に定期的に分析を行なっていこうと思います。今回は「工業統計調査」について見ていこうと思います。
総務省サービス産業動向調査のデータ分析
櫻井 裕司
2020/07/08 櫻井 裕司
techdataAnalytics
総務省がAPIで市場データを公開しており、分析技術向上と市場感を養うことを目的に定期的に分析を行なっていこうと思います。初回は「サービス産業動向調査」について見ていこうと思います。
【個人ブログ】CTOが個人的に株をはじめました
櫻井 裕司
2020/07/08 櫻井 裕司
personalstock
長年放置してた株に少し手を出してみました。自分なりに少し情報整理と分析と予想をしたので記事にしてみます。
タスク管理アプリ「タスククロス」をリリースしました
櫻井 裕司
2020/04/08 櫻井 裕司
techapp
タスク管理を二次元的に行うアプリ「タスククロス」をリリースしました。SinkCapitalはデータコンサルですが、知見蓄積のため様々な媒体での実験的開発を行っています
【terraform】gcpでcicd環境を構築する方法
櫻井 裕司
2020/01/04 櫻井 裕司
tech
企業サイトはAWSを利用しているのですが、要件によってはGCPの方が適している場合もあるため、GCPでのcicd構築も行いました。AWSと比較しつつ説明しているため是非ご参考にしてみてください。
【合格体験記】GCP_Cloud_Archtectに受かりました
櫻井 裕司
2019/12/23 櫻井 裕司
personalqualification
Google Professional Cloud Architectに合格したので、勉強法別のコスパをまとめてみました。
AWSでサブドメインなし(wwwなし)からサブドメインあり(wwwあり)へのリダイレクト設定
櫻井 裕司
2019/12/23 櫻井 裕司
tech
もともと企業サイトがサブドメインありで公開していたが、サブドメインなしでもエラーなく接続できるように設計。terraformで作成しているので是非ご参考ください。
マークダウンで記事を書けるようにしてみた
櫻井 裕司
2019/12/16 櫻井 裕司
tech
ホームページのブログをマークダウンを使用してかけるようにしました。gatsbyなどもありますが、今回はお手製cicd+pythonを使用してライトに作成しました。
Copyright © SinkCapital 2022
一緒に働きたい方はこちら