パロアルトインサイト/ PALO ALTO INSIGHT, LLC.

ブログBLOG

パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > パロアルトインサイト流クラウドベース機械学習の設計図

パロアルトインサイト流クラウドベース機械学習の設計図

2017/12/19 ブログ 
by PALO ALTO INSIGHT, LLC. STAFF 

こんにちは、CTO長谷川です。

企業に取ってデータはお金と同じように貴重な資源です。金融機関のように取引情報を扱うクライアントや、個人情報などのかなりセンシティブな情報を取り扱うクライアントとお話をしている際に、「プロジェクトを実施する中で、どのようにデータの安全性を担保するのか」という質問をいただくことがしばしばあります。そういう際に良くご提案しているのが、以下のようなクラウド主体のData Lake設計図です。

早い話が、AWSのようなクラウドに分析や機械学習に必要なデータを置いていただき、そこを共通の場としてプロジェクトを進めていくという形です。ここでポイントになるのが、全ての可視化、分析、学習作業が、クラウドで実行できるため、データをローカルに持ってくる必要がないということです。AWSでは、EMRやAthenaなどのサービスを活用することによって、S3のデータに対して直接プログラムを実行できますし、機械学習のモデル自体もS3のバケツに落とします。このようなローカルにデータを落とさない、クラウド主体のデータ管理方法は、誤ってデータが個人のパソコンから漏洩するリスクを最小化します。

加えて、AWSにはCloudTrailという監視システムがあり、S3へのアクセスを全て記録できます。どのタイミングでいつ、誰が、どのIPアドレスから、どのオブジェクトに対して何のアクションを起こしたかが、事細かに記録されるので、コンプライアンスの観点からも安心です。さらに、個人情報を守る機能として、AWS Macieという新しいサービスをアマゾンは8月に発表しました。S3上にあるデータを監視して、個人を特定できる情報やクレジットカード番号などの機密情報を検知するシステムです。

このようにクラウドの透明性、柔軟性はここ数年で急速に進化しているため、米国ではほとんどの大手がクラウドベースのシステムを構築しています。AIの観点からも、データをクラウドに移行することは、最新のツールを使えるようになるという利点があります。S3にデータを置いておくだけでSpark、TesorFlow、Hive、Impalaなどの最先端ツールが使えるのは、データサイエンティストに取って夢のような環境です。

BACK TO BLOG

NEWSLETTERニュースレター

ブログ記事を最後まで読んでいただき、
ありがとうございます。
弊社ニュースレターにご登録いただくと、
このブログの最新記事や、
シリコンバレーの最新AI事情、
お得なキャンペーン情報について
お知らせいたします。
また、アップルやアマゾンなどで
経営陣が実施しているデータ会議の
回し方が分かる早見表を
無料でダウンロードできる
リンクもお送りします。

PAGE TOP