Google Cloud NEXT Tokyo '17 に参加してきた(6/14) #1
データ分析基盤としてのGCP
エンジニア以外も使える環境を整えて行くことが大事。
エンジニアに依頼ベースでやっていた
心理的な障壁とそれによる機会損失をなくすためにFlat Rateを契約
Googleの機能よりも良いものを実装できるのか?
Vision APIで得られた結果と、そういうエンジニアを採用するのとどっち?
といった指標として利用している。
メルカリアッテ
AppEngine, Compute Engine -> stackdriver
スケールのための作業は発生していない。
たまに障害はあるが許容できる範囲
生産性
ドキュメント類が充実してきて効率的に習得できるている。
最先端のクラウド技術を利用できることへの精神的な満足感がある。
コスト
利用した分だけ課金される。
費用とROIが容易に予測できる。
特定のクラウドベンダーに依存するということのリスク
依存しないことのリスク
依存することで得られるもの
- > 他で提供できない機能というのは技術的に高度なものであったりする。それを利用できるメリット。
次のセッション。
Google のデータサイエンティストが語る現場で使える機械学習入門
機械学習系のセッションに興味がありこのセッションを聴講しました。
Google Cloud Next '17 in Tokyo | 6 月 14 日 ( 水 ) ・ 15 日 ( 木 ) | スケジュール
佐藤 一憲さんのデモもよかったです。
BigQueryに格納されたパブリックデータを使って2つのモデルで学習をさせた結果を見せるというものでした。
ラジオ体操はしていなかったw
セッションのメモを以下に。
機械学習(Machine Learning)はこう動く
ルールベースとの違い
ルールベースは単純なルールで切り分けられないものに弱い
MLはルールに頼らない
単純パーセプトロン
ニューラルネットワーク
データ-> モデル-> 予測-> 検証 ->フィードバック-> モデル
8のステップ
機械学習がそもそも必要なのか?
日次より頻繁に、データに基づいて最適化するようなものに向いている。
- 目的
ときたいパズルが何か
- データの集め方
手動、データが少なすぎるは向かない
自動で多くのデータを集める
必要なデータを厳選する
- データの前処理
一般にそのままではただのゴミ
全体の8割以上の作業時間がここにかかる
分別整理する
列志向型のデータテーブルにする
- モデル学習とその方法
線形、非線形
教師あり、教師なし
学習モデルも適材適所
- モデルのチューニング
チューニングパラメータを一つ変えただけで結果が全然変わる
- 汎化性能
過去データだけでうまくいっても意味がない。
ノイズに惑わされず、真のシグナルに最もよくフィットすることで
未知のデータに対して高い精度を発揮する割合
- 検証
効果の有無を見る
pre/post, ROI
- 改善サイクル
これらのサイクルを回して改善して行く。