2013年3月14日木曜日

Q. Ethan McCallum "Bad Data Handbook: Cleaning Up the Data So You Can Get Back to Work"

データ解析の現場の事例集。Excel表の処理とかテキストマイニングとか統計データ処理など。業界でいうところの「データのクリーニング」みたいな話が多い。教科書的な統計理論とかデータベース理論の解説はない。むしろ、そういう理論をいくら究めても、現場はそんな綺麗事で済まないという点がテーマになっている。単純な話が、Excel表がRDBみたいに入力されていることはまずないわけだし、統計データが教科書通りに完璧に用意されていることもありえないわけだし等々。こういう現実のデータに如何に立ち向かうのかが、個別事例によって語られる。データ解析を仕事にしている人なら誰でも経験していることばかりだ。データのクリーニングなんか、ハッカー的な意味でカッコいい仕事でもないので、あまり公に語られることもなかったのだが、その意味では画期的な書籍と言えよう。もっとも、問題は個々の事例によって区々なので、体系的な対策はない。それらしい一般論を構築しようとしている章もあるが、現実はそんなに甘くない。仕事でデータ解析をしている人は読んで損はないだろう。と言っても、個人的には、特に参考になる技術とかはなかったが・・・。

それはそれとして、この本は、とある割と最近のTogetterに紹介されている。要は、「Excelを罫線ワープロとして使う事務屋は無能」と言っているだけで、こういうことを言う自称理系のナルシストに限って仕事ができないのを、わたしは良く知っている。ただの計算屋で、少しでもイレギュラーなデータが入っていたら、何もできなくなる人種である。どっちにしろ、この連中は実際にはこの本を読んでいないのだろう。読んでいたら、この本が連中とは全く逆の意図で書かれていることが分かるはずだからだ。そういう意味でも、できるだけ広く読んでもらいたい本だ。

A collection of cases of data cleaning. This book does not provide a general solution, though some chapters try to do so. Data cleaning is not a cool business. I guess that is why this kind of book has never written until now.

0 件のコメント:

コメントを投稿