業務を変えたビッグデータ – [事例2]神戸製鋼所、200万件以上のデータを整理「分析前に勝負は決まる」:ITpro
AとBどっちがいいですか?と聞いた時に「場合による」って答えられるとイラッとしますよね。
こっちは0か1かで聞いているんだからどっちか答えんかい!と思うからです。
とはいっても世の中そんなにスッキリさっぱり別れることって少ないです。
今回はスッキリしない理由を書いてみます。
冒頭の記事にはこう書かれています。
ビッグデータを業務に生かす取り組みでは「分析前に勝負は決まる」。データが分析できる状態になっていなければ、業務に貢献できないからだ。
神戸製鋼所の林高弘IT企画部長は「分析ツールを導入する際の事前準備が、データ分析の成否を分ける」と語る。実際に、200万件以上のデータを入念に調べ上げて整理し直した
200万件のデータをきれいにしているとはすごい。
不眠不休で1秒に1件処理して23日もかかる量です。
私も大きめのデータを扱ったことがありますがこのクリーニングの作業ってとても大切で、ここがいい加減だとそこから出てくるデータは何の信頼性もないゴミでしかありません。
ですので、データは出所のはっきりしたきれいなデータを使う。これが基本。
[見つけ次第更新] リファラースパムリスト Google Analytics – NAVER まとめ
皆さんがお困りであろうGoogle アナリティクスのリファラスパム。
これについて詳しくは説明しませんが、これってイタチごっこなんですよね。しかもフィルタをかけても反映されるのはそれ以降なので過去のデータは変わりません。セグメントをかけるのが一番確実です。
で、セグメントをかけるとサンプリング(データが間引かれること)が発生するので、こっちはこっちで精度が落ちてしまう・・・という悩みもあるでしょう。
じゃあどうするか?
答えは「気にしない。」「汚いまま使う。」
サンプリングが発生するのはデータ量が多い時なのでリファラスパムの影響は無視しても良いからです(これも場合によるでしょうけど)。
サンプリングが発生しない時はどうするの?
この場合はセグメントしてそのまま使えばいいですし、アクセス自体が少ない可能性もあるので集客に力を入れないといけません。
気にするのはリファラスパムではなくてサイトへの流入数なわけです。
このように汚いデータも問題ない時ってあるんですよね。
これを知らない人って意外と多いような。
効率化の話をするとスキルを上げるとか外注化するとかマニュアル化するって話が出てきますが、その前にやらないことを考えた方が早いです。
その前提でどうしても仕方なくやらないといけなくなった時にどの方法を選ぶのか?
こう考えることで最も効率的な方法が見えてくるわけです。
企業全体の意思決定に関わって、なおかつ今後も継続的にデータを出すとなればチマチマきれいにするのが長い目で見れば効率的でしょう。
Webサイトの状況だけ知りたいのであればリファラスパムを無視する方が楽でしょう。
置かれた状況を考えて臨機応変に判断しましょうね。
効率化には無精者が向いていると思う。