そんな今日この頃でして、、、

コード書いたり映画みたり。努力は苦手だから「楽しいこと」を探していきたい。

『データ解析の実務プロセス入門』感想、はじめの一冊に良さそう

データ解析の実務プロセス入門

データ解析の実務プロセス入門

サービスを運用していると日々溜まっていく、どうにも使いにくいログの山。

経営陣からの要請もあって何かとデータ集計のタスクが積まれることも多いが、 今ひとつそれが活かされているように見えなかったりする。

指示された値を取るスクリプトはそれなりに作れるが、 さてそれを実際のサービス運用にどう反映させていけば良いのか。

帯の文言が正に今の俺だなーということで手にとってみた。


昨今データサイエンティストという言葉がバズワードとなっていたこともあり、 やれ「解析基盤を構築する」だとか「〜で統計値を算出する」といったツールや手法に関する書籍はいくつも出ている。

だが、適当にデータを放り込めばひとりでに有用な情報が出てくるわけではない。 ログにも目的に合わせた設計が必要だし、データの選定にもリテラシーを要する。

また、ツールによって統計値を出したとしても、それが直接役立つわけではない。 操作によって出てきた値や数値を解釈するにも相応のテクニックを要する。

本書はそんな、データ解析を実務で活かすためのプロセス全体を扱った書籍である。

「良いデータ」とは何かといった基礎から「KPIを見る運用」を如何に根付かせるかといったところまで手広くカバーしてはいる。

その一方事例やツールの用例も適切に配されており、すぐに手を動かして試してみることができて学びやすく好感を覚える。


個人的にはWekaを用いて決定木から要因の影響度を探る章が特に面白かった。

Weka入門 〜決定木とデータセットの作り方〜 in松村研

「要因分析」という意味では学生時代に学んだ(あの時はエコノメイトを使ったっけ)重回帰分析という手法もあるが、 あちらが意味ある数式を得るまでの難度が高かった印象があるのに対し、 こちらはいつもやっているスクリプト集計の延長としてCSVを読ませて視覚的に結果が得られる。


やはりある程度実務でデータ集計を扱ったことがある人間の方が理解しやすいのではあるが、 コードや数式は最低限に抑えられており、エンジニア以外でも十分に読むことができると思う。

実務をやっていると、例えばユーザへのアンケートの実施方法などでも企画者や部署長の理解の足りなさを感じることも少なくない。

なかなか刺激的な帯は外した方が良いかもしれないが、基礎教養として部署においておく価値はあると思う。



データの集計といえば最近は下記の2冊を読んでPythonを使った統計にもチャレンジしている。

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

実践 機械学習システム

実践 機械学習システム

実のところ以前にもRを用いた同様の書籍を買ってみていたのだが、あちらはどうにも操作体系に慣れず、多少例題をやってみる程度で止まってしまっていた。

その点でPythonは普段使っているLLと近い記述方法であり、感覚的に理解しやすいのが良い。

pandas便利!