パロアルトインサイト流クラウドベース機械学習の設計図

こんにちは、CTO長谷川です。

企業に取ってデータはお金と同じように貴重な資源です。金融機関のように取引情報を扱うクライアントや、個人情報などのかなりセンシティブな情報を取り扱うクライアントとお話をしている際に、「プロジェクトを実施する中で、どのようにデータの安全性を担保するのか」という質問をいただくことがしばしばあります。そういう際に良くご提案しているのが、以下のようなクラウド主体のData Lake設計図です。

pai_shared_ml_platform_architecture.001.jpeg

早い話が、AWSのようなクラウドに分析や機械学習に必要なデータを置いていただき、そこを共通の場としてプロジェクトを進めていくという形です。ここでポイントになるのが、全ての可視化、分析、学習作業が、クラウドで実行できるため、データをローカルに持ってくる必要がないということです。AWSでは、EMRやAthenaなどのサービスを活用することによって、S3のデータに対して直接プログラムを実行できますし、機械学習のモデル自体もS3のバケツに落とします。このようなローカルにデータを落とさない、クラウド主体のデータ管理方法は、誤ってデータが個人のパソコンから漏洩するリスクを最小化します。

加えて、AWSにはCloudTrailという監視システムがあり、S3へのアクセスを全て記録できます。どのタイミングでいつ、誰が、どのIPアドレスから、どのオブジェクトに対して何のアクションを起こしたかが、事細かに記録されるので、コンプライアンスの観点からも安心です。さらに、個人情報を守る機能として、AWS Macieという新しいサービスをアマゾンは8月に発表しました。S3上にあるデータを監視して、個人を特定できる情報やクレジットカード番号などの機密情報を検知するシステムです。

このようにクラウドの透明性、柔軟性はここ数年で急速に進化しているため、米国ではほとんどの大手がクラウドベースのシステムを構築しています。AIの観点からも、データをクラウドに移行することは、最新のツールを使えるようになるという利点があります。S3にデータを置いておくだけでSpark、TesorFlow、Hive、Impalaなどの最先端ツールが使えるのは、データサイエンティストに取って夢のような環境です。