アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.
パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > Tokenizer(トークナイザ)とは何か?日本語の難しさとは?
投稿日:2022/01/05 更新日: 2023/05/22 by kohei

Tokenizer(トークナイザ)とは何か?なぜ、日本語はAIにとって難しいとされているのか

今週のテーマ:業務効率化

新年あけましておめでとうございます。

The Insight 担当しております嶋崎です。2021年年末に政府は「デジタル社会の実現に向けた重点計画(デジタル重点計画)」を閣議決定したことで、デジタル化の波はさらにスピードを増してくることとなると存じますが、Palo Alto Insight ではThe Insight を通し皆様へ「わかりやすく、役に立つ」情報をお伝えし、お力になれるよう一層のサービス向上に努めてまります。

今年もどうぞ宜しくお願いいたします。

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。2022年最初の今回はAIの中でも重要分野である自然言語処理(NLP:Natural Language Processing)と、日本語の自然言語処理に欠かせないトークナイザについてご紹介します。

近年、AIを活用した翻訳やチャットボット、音声応対などのサービスが次々と誕生しています。そのサービスを形づくる重要な技術の一つが「自然言語処理(NLP)」です。2018年にはGoogleが「BERT」を、2020年には米国のAI研究企業OpenAIが「GPT-3」という自然言語処理モデルを発表し、さらに注目が集まっています。

そこで今回は自然言語処理について日本語の特性ふまえて解説します。

論文データ
今回のディスカッション対象の論文をご紹介します。

タイトル:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
著者:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
掲載サイト:arXiv
発行日:2020年7月28日
引用数:
URL:https://arxiv.org/pdf/1910.10683.pdf

この記事から得られる3つのナレッジ
・自然言語処理とは何か
・自然言語処理における日本語と英語の違い
・ビジネスにおける自然言語処理の活用事例

目次

自然言語処理(NLP)とは

自然言語処理とトークナイザ

日本語の自然言語処理が難しい本当の理由

自然言語処理(NLP)のビジネスでの活用事例

ビジネスデザイナーのワンポイントアドバイス

 


自然言語処理(NLP)とは

NLPとは

「自然言語処理(NLP)」とは「Natural Language Processing」の略で、人間が日常生活で使う言葉をコンピューターで解析・処理する技術のことです。

人間の話し言葉や書き言葉には、曖昧な表現やさまざまな解釈ができる言葉が使われるケースが少なくありません。例えば「かける」という言葉は「校庭を走る」「鍵をかける」などさまざまな意味で利用されます。

そのため私たちの言葉をコンピューターに理解させるためにはまず自然言語処理を行い、コンピューターが扱える形式に整える必要があるのです。

日常生活に溶け込む自然言語処理

自然言語処理は、すでに私たちの日常生活のあらゆる場面で活用されています。代表的なものがGoogleやYahoo!などの検索エンジンです。指定のワードで検索を行う際、Webサイトの内容を自然言語処理するなどして、検索意図に沿った結果を表示します。SiriやAlexaなどのAIアシスタントも、音声を自然言語処理して検索などを行っています。

そのほかにもチャットボット、ひらがなや漢字の入力変換、自動要約、機械翻訳などのサービス・ツールにも活用されています。

自然言語処理とトークナイザ

トークナイザとは

自然言語処理を行うためには、まず文章を単語(=トークン)に分解するトークナイズを行い、コンピューターが処理できる入力形式に変換しなければいけません。それを実行するプログラムが「トークナイザ」です。

トークナイズにはいくつかの分解方法がありますが、中でも日本語の自然言語処理においてよく利用されているのが形態素に分解する「形態素解析」です。

形態素解析とは

形態素解析とは、文章を意味を持つ最小単位である「形態素」に区切り、それぞれを名詞や動詞などの品詞に分類することです。例えば「私は青い電車に乗る」という文章は、形態素解析を用いて以下のように分解・分類できます。

私は青い電車に乗る

私(名詞)は(助詞)青い(形容詞)電車(名詞)に(助詞)乗る(動詞)

自然言語処理では一般的にまず形態素解析を行い、その後「構文解析」「意味解析」「文脈解析」のステップで処理を進めていきます。

日本語の自然言語処理が難しい本当の理由

おすすめ/関連記事こちらの記事も合わせてどうぞ

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。東急ホテルズ&リゾーツ株式会社が擁する3名のDXアドバイザーの一員として中長期DX戦略について助言を行う。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

 

※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP