パロアルトインサイト/ PALO ALTO INSIGHT, LLC.

ブログBLOG

パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > 最先端自然言語モデルB E R Tとは①

最先端自然言語モデルB E R Tとは①

2019/11/02 ブログ 
by 辻 智範 

こんにちは。パロアルトインサイト、データサイエンティストの辻です。今回はGoogleによって開発された最先端自然言語モデルBERTの概要についてお話をします。

自然言語処理とは人間が日常的に使っている様々な言語をコンピューターで処理する技術を指し、自動翻訳、音声認識、検索機能や、チャットボットなど様々な場面で実用化が進んでいます。

BERTとはGoogleが開発した自然言語処理のディープラーニングモデル1で、革新的な学習成果を達成したことで有名です。研究で使われている公開データの学習精度でも素晴らしい成果を出しましたが、ビジネスへの適応性が非常に高く、Googleサーチに新しく導入され10%の検索結果でその効果が検証されました。[Understanding searches better than ever before by google]

ではBERTモデルは他の自然言語処理モデルとどのような点が大きく違うのでしょうか?

まず大きな違いはこれまでの自然言語モデルでは文章分類、翻訳、感情分析など特定の学習タスクに対して1つのモデルを用いていたのですが、BERTモデルは転移学習2をすることが可能になり、1つのモデルをチューニングすることで、様々な問題に対応することができるようになりました。(汎用性の獲得)

図表1:BERT モデル事前学習とファインチューニング [1]
事前学習とファインチューニング

左図:事前学習。2種類の事前学習を行い、言語表現モデルを学習させる : ① 15%の単語をランダムに隠して、予測する問題解くことで文脈を学習させる。② 2つの文章を与え、隣り合っているかの判定を行う問題右図:ファインチューニング。事前学習のモデルを使い、ラベル付きの教師データで様々な問題を学習するとゼロベースの学習よりも速く正確に学習できる。問題例として文章分類、固有表現抽出 (タグ付け)、質問回答予測などがあげられる。


次に以前はモデルごとに語彙を1から学習させるため、非常に多くの時間とコストがかかっていました。BERTではオープンソースで公開されている文脈を既に学習させたPre-Training BERTモデルを使用して、これまでより少ないデータセットで短時間で学習ができるようになりました。少ないデータセットでさまざまな学習ができる理由は、データ上のラベルを使わない教師なしデータで事前学習を行ったモデルが公開されているからです。これを外国語を学んでいる人間に置き換えるとすれば、すでに大量の単語と文法を覚えていて、あとは文章を読んで読解力を身につけるだけの状態になっているようなものです。(学習プロセスの効率化)

実はこのような事前学習をするモデルはOpen AIが開発したGPT(Generative Pre-trained Transformer)モデルなどでも開発されていますが、BERTでは語彙を前から後ろ、後ろから前の双方向から文脈の学習を行いさらに高い精度で文脈を解析します。下図ではOpanAI GPTが左から右に対して矢印が繋がっているのに対し、BERTでは前後全てのノードにニューラルネットワークが連結されているのがわかります。

BERTとOpenAI GPTのネットワークの違い [1]
BERTとOpenAIGPTの比較

BERTモデルは今まで開発された様々な自然言語処理のモデルの良いとこどりをし、ビジネスアプリケーションにも適応できる非常に有能なモデルであることがわかります。今回は概要についてのお話でしたが、次回は実際にサンプルデータを使い、Fine-Tuningの仕方についてコードサンプルも交えて書きたいと思います。

引用:
[1] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. arXiv:1810.04805v2

1 ディープラーニング:機械学習モデルのニューラルネットワークを多層に組み合わせて使用した学習モデル
2 転移学習:シミュレーターなどの類似した問題で仮データで学習したモデルを使い、少ない実データでよりよく学習する学習方法

BACK TO BLOG

NEWSLETTERニュースレター

ブログ記事を最後まで読んでいただき、
ありがとうございます。
弊社ニュースレターにご登録いただくと、
このブログの最新記事や、
シリコンバレーの最新AI事情、
お得なキャンペーン情報について
お知らせいたします。
また、アップルやアマゾンなどで
経営陣が実施しているデータ会議の
回し方が分かる早見表を
無料でダウンロードできる
リンクもお送りします。

PAGE TOP