臨機応変に清濁併せ呑む FavoriteLoadingあとで読む

: 森野 誠之

業務を変えたビッグデータ – [事例2]神戸製鋼所、200万件以上のデータを整理「分析前に勝負は決まる」:ITpro

chess

AとBどっちがいいですか?と聞いた時に「場合による」って答えられるとイラッとしますよね。

こっちは0か1かで聞いているんだからどっちか答えんかい!と思うからです。

とはいっても世の中そんなにスッキリさっぱり別れることって少ないです。

今回はスッキリしない理由を書いてみます。

データはきれいなものが良いに決まっている

冒頭の記事にはこう書かれています。

ビッグデータを業務に生かす取り組みでは「分析前に勝負は決まる」。データが分析できる状態になっていなければ、業務に貢献できないからだ。

 神戸製鋼所の林高弘IT企画部長は「分析ツールを導入する際の事前準備が、データ分析の成否を分ける」と語る。実際に、200万件以上のデータを入念に調べ上げて整理し直した

200万件のデータをきれいにしているとはすごい。

不眠不休で1秒に1件処理して23日もかかる量です。

私も大きめのデータを扱ったことがありますがこのクリーニングの作業ってとても大切で、ここがいい加減だとそこから出てくるデータは何の信頼性もないゴミでしかありません。

ですので、データは出所のはっきりしたきれいなデータを使う。これが基本。

データは多少汚くても意思決定ができれば問題ない

[見つけ次第更新] リファラースパムリスト Google Analytics – NAVER まとめ

皆さんがお困りであろうGoogle アナリティクスのリファラスパム。

これについて詳しくは説明しませんが、これってイタチごっこなんですよね。しかもフィルタをかけても反映されるのはそれ以降なので過去のデータは変わりません。セグメントをかけるのが一番確実です。

で、セグメントをかけるとサンプリング(データが間引かれること)が発生するので、こっちはこっちで精度が落ちてしまう・・・という悩みもあるでしょう。

じゃあどうするか?

答えは「気にしない。」「汚いまま使う。」

サンプリングが発生するのはデータ量が多い時なのでリファラスパムの影響は無視しても良いからです(これも場合によるでしょうけど)。

サンプリングが発生しない時はどうするの?

この場合はセグメントしてそのまま使えばいいですし、アクセス自体が少ない可能性もあるので集客に力を入れないといけません。

気にするのはリファラスパムではなくてサイトへの流入数なわけです。

このように汚いデータも問題ない時ってあるんですよね。

最も効率的なのは何もしないこと

これを知らない人って意外と多いような。

効率化の話をするとスキルを上げるとか外注化するとかマニュアル化するって話が出てきますが、その前にやらないことを考えた方が早いです。

その前提でどうしても仕方なくやらないといけなくなった時にどの方法を選ぶのか?

こう考えることで最も効率的な方法が見えてくるわけです。

企業全体の意思決定に関わって、なおかつ今後も継続的にデータを出すとなればチマチマきれいにするのが長い目で見れば効率的でしょう。

Webサイトの状況だけ知りたいのであればリファラスパムを無視する方が楽でしょう。

置かれた状況を考えて臨機応変に判断しましょうね。

あとがき

効率化には無精者が向いていると思う。

森野 誠之
この記事を書いた人: 森野 誠之

運営堂 代表/愛知大学非常勤講師
お膝元である愛知県を中心に地方のWEB運用を熟知し、主に中小企業を中心としてGoogleアナリティクスを利用したサイトの分析、改善提案やリスティング広告を用いた集客改善など、サイト運営の手伝いを行なっている。最新情報を抑えながら地方かつ中小企業向けのノウハウをわかりやすく説明できる数少ない人物。
運営堂 www.uneidou.com/
Facebook 運営堂 www.facebook.com/uneidou.fb
Twitter @uneidou twitter.com/uneidou