いいもんつくったー

今週の平積みさん#データサイエンス編@ジュンク堂書店

今週の気になった平積み4冊を紹介します。

Kaggleで勝つデータ分析の技術

発売前から話題のKaggle本!先行発売だそうです。

Kaggleをはじめよう!
データサイエンスの認知の高まりとともに、データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え、多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは、実際のデータを扱うため、機械学習の解説書にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく、実務でのモデル構築において非常に役に立ちます。
そこでこれらのテクニックや事例を多くの人に知っていただくために、現時点で最新のものを整理して本書にまとめました。特徴量の作り方、バリデーション、パラメータチューニングなどについて、一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。分析コンペにこれから参加してみたい方、あるいはもっと上を目指したい方だけでなく、実務で予測モデルの精度を上げたいという方にも参考になる情報が多いでしょう。

時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)

上級者向けです。製造業の設備異常検知とかやりたい人に是非。

「時系列解析」は過去の自身のデータから未来のデータを予測するために用いられる手法であるが,予測だけでなく,事象の分解・理解に強みを持つ手法でもある。本書では,応用範囲の広い「時系列解析」について,マーケティングやIoTなどの現場における実解析で応用ができるように解説の内容を選定し,手法の基礎的な理論をPythonのサンプルコードとともに解説した。簡単なデータを用いた簡単な課題を例にとり,基礎的なモデル構築の過程を段階的に体験できるように,また,自学により応用範囲を広げてもらえるように,どの場面で,なぜその手法を使うのかを考えられるように説明している。
本書では,経済・マーケティングの分野で多く用いられるARモデルに代表される自己回帰型の古典的なデータ解析手法,工学分野の信号処理でも活躍の場面が多いカルマンフィルタに代表される状態空間モデル,IoT分野で活躍の場面が多い異常検知について説明している。
解説では、各手法について、より簡単な手法から説明し、各データに対してモデリングがうまくいかない理由とその克服方法を合わせて提示することで、段階的に各手法の必要性を理解できるように心がけている。


15時間でわかる MySQL集中講座

こちらも先行発売だそうです。ざっと読んだ感じ、MySQLを初めて使う人向け。

オープンソースRDBMSとして定番のMySQLを2週間で業務レベルの基礎知識を習得できる解説書です。解説は大きく「基礎編」と「運用編」の2つに分け,基礎編では,データベースやSQLに関する基礎知識,MySQLのセットアップ,設定と内部動作のしくみなどを解説,運用編では,運用の基礎知識,バックアップ,レプリケーション,チューニングなど,現場で必ず必要になる実践的な知識をわかりやすく解説します。


データサイエンスの基礎 (データサイエンス入門シリーズ)

ヒストグラムの見方から確率論まで幅広く書かれてます。理系大学一年生の基礎でやるような感じです。

現実社会のデータを多く扱いながら、データサイエンスの概念と確率の基礎をしっかりていねいに解説。データリ
テラシーを涵養するためのまたとない入門書! データサイエンスを知るならまずこの本!

【「巻頭言」より抜粋】
データサイエンス分野の遅れを取り戻すべく、日本でも文系・理系を問わず多くの学生がデータサイエンスを学ぶことが望まれます。

文部科学省も「数理及びデータサイエンスに係る教育強化拠点」6 大学(北海道大学東京大学滋賀大学京都大学大阪大学九州大学)を選定し、拠点校は「数理・データサイエンス教育強化拠点コンソーシアム」を設立して、全国の大学に向けたデータサイエンス教育の指針や教育コンテンツの作成をおこなっています。

本シリーズは、コンソーシアムのカリキュラム分科会が作成したデータサイエンスに関するスキルセットに準拠した標準的な教科書シリーズを目指して編集されました。またコンソーシアムの教材分科会委員の先生方には各巻の原稿を読んでいただき、貴重なコメントをいただきました。

データサイエンスは、従来からの統計学とデータサイエンスに必要な情報学の二つの分野を基礎としますが、データサイエンスの教育のためには、データという共通点からこれらの二つの分野を融合的に扱うことが必要です。この点で本シリーズは、これまでの統計学やコンピュータ科学の個々の教科書とは性格を異にしており、ビッグデータの時代にふさわしい内容を提供します。本シリーズが全国の大学で活用されることを期待いたします。