【TOHOKU University 虎扑电竞er in Focus】Vol.006 言葉がわかるAIをつくる―目指すはオンリーワンの技術―

2019年12月10日 15:20 | プレスリリース?研究成果

本学の注目すべき研究者のこれまでの研究活動や最新の情報を紹介します。

情報科学研究科　乾健太郎　教授

情報科学研究科　乾健太郎（いぬいけんたろう）教授

やがて多くの分野でAI（人工知能）が人間にとって代わるだろうと言われています。しかしAIは万能ではありません。たとえば現在のAIは、言葉の意味や背景をなす常識を理解できません。機械学習によってたくさんの定型的なパターンを学習していることで、それらしい文章を作れているにすぎないのです。これは、言葉を話せる、言葉がわかるとはどういうことかという哲学的な問いにもつながる深い問題です。

自然言語とは

乾さんはたくさんのプロジェクトを同時進行させています。そのフィールドは「自然言語処理」と呼ばれる研究分野です。「不自然な言語」があるのかという声が聞こえてきそうですが、コンピュータの世界で言語といえばプログラミング言語のような「形式言語（人工言語）」を指すのに対して、人が使う言葉を「自然に発生した言語」という意味で「自然言語」と呼んでいるのです。自然言語処理とは、自然言語で伝達される情報や知識を理解し、検索?抽出したり、翻訳?整理?分析したりすることによって人、社会、機械のあいだのコミュニケーションを支援するソフトウェア技術を指します。

乾さんいわく、AIにとって自然言語処理は最大の難問とのこと。OK Googleなど、人と会話するチャットボットも出てきました。しかしそれらは、あくまでも音声認識機能による定型的な対応であり、人間どうしの会話のような臨機応変なやりとりはまだできません。

囲碁の世界チャンピオンに勝ったコンピュータ囲碁プログラム「AlphaGo(アルファ碁)」もAIです。その後開発された「AlphaGo Zero（アルファ碁ゼロ）」はさらにパワーアップしました。これは、深層学習（ディープラーニング）によってプロ棋士の大量の対戦記録から打ち筋を学んだAIが、さらに自分自身と対局を繰り返すことによって腕を磨いた成果です。

言語処理の分野でもこの深層学習が威力を発揮しています。なかでも躍進著しいのが機械翻訳です。機械翻訳の開発では、"good morning"と「おはよう」のように原文（入力）とその訳文（出力）がペアとなっている大量の翻訳データを用意し、そこから翻訳の変換規則となる複雑な関数を自働で学習させます。そこに深層学習を入れることで精度が上がってきました。

「限られた翻訳データから意味的に整合する滑らかな翻訳パターンを学習させるには、単語やフレーズの意味情報を計算機内部でどのように表現しておくかが重要な鍵になる」と乾さんは語ります。深層学習では、単語やフレーズのような記号的な情報もベクトルや行列のような連続量で表現します。表現の仕組みと学習アルゴリズムを工夫すると、例えば「着物」と「和服」、"reduce the risk of"と"prevent"のように字面がまったく違う単語やフレーズが意味的にはよく似ている、といったことを計算機が柔軟に計算できるようになります。乾さんのグループはこうした技術で世界的に競争力のある先進的な研究を展開しています。

その応用の一つが文章の自動添削。乾さんの研究室が開発した添削技術は2019年11月時点で英語の文法誤り訂正で世界最高の精度を達成しています。また、2018年には研究室の大学院学生が英語論文執筆支援エディタを開発するベンチャーを起業しました。大量の英語論文データからよく使われる言い回しを学習し、初学者が書く稚拙な英文をネイティブの論文らしい文章に「翻訳」するAIです。ユーザは、AIの提案を参考にしながら自分なりの論文を仕上げます。「自然言語処理自身が深層学習の技術革新の重要な発信源になっていて、おもしろい発明や発見が次々に起こっている」と乾さんは目を輝かせます。

乾さんたちはさらに野心的な研究にも取り組んでいます。その一つがAI版「赤ペン先生」の開発。記述式の答案を解析し、「どこが良いか、不十分な点はどこで、どう直すとよいか」を説明して採点するAI技術をめざします。これを実現するには、不完全で未熟な文章から文脈を読み取り、解答者が何を言いたかったのか、つまり解答者の意図を推測できなければなりません。これはAI研究の歴史のなかで未解決のまま残っている重要課題。挑戦しがいのあるプロジェクトです。

行間を読めるAIをつくる

現在のAIは文章の意図や行間を読むことができません。たとえば、「庭に洗濯物を干していたら、突然雨が降ってきてね」という話が会話の中で出てきたら、これが話し手にとって「がっかり」なエピソードだということを聞き手は瞬時に理解するでしょう。単純なことのように見えますが、これが今のAIにはとても難しいことだと乾さんはいいます。それぞれの単語の意味は学習である程度わかっていて、翻訳さえできる。けれども、今のAIは常識的な知識を十分に持っていないので、「洗濯物を干す」とはどういうことか、「雨が降ってきた」らどうなるかを理解して、話し手に共感するといったことができないのです。こんな何気ない会話からも、人間だけが持つ言語能力のすごさがわかります。このギャップを埋められない限り、AIとの臨機応変で筋の通った会話を期待することは難しいでしょう。

乾さんの研究グループはこの問題に世界に先がけて取り組み、Webで集めた大量の言語データから常識的な知識を自働収集する研究を進めるとともに、収集した大量の常識的知識を使って推論する世界最高速の仮説推論エンジンを開発するなど、成果をあげてきました。次の課題はこれらの成果をどうやってうまく深層学習と組み合わせるかだと乾さんは語ります。

自然言語処理の研究には長い歴史があります。もとをただせば、伝説的な天才アラン?チューリングが第二次世界大戦中に参加した、機械式計算機「ボンブ」によるドイツ軍の暗号エニグマの解読成功にさかのぼるのです。その成功を受けて、戦後すぐに機械翻訳の研究が開始されました。以来、自然言語処理はAIの中心的な分野として発展してきましたが、上で述べた行間の理解など、未解決の問題がまだ沢山残っています。

乾さんは、もともとは経済学部や経営学部への進学を考えていました。しかし情報工学という分野の存在を知り、文系から理系に進路を変更しました。それでも当初は、経営コンサルティングのような分野に進みたいと思っていたそうですが、言葉の意味を数学の道具を使って計算しようとする人工知能?自然言語処理の面白さに目覚め、この分野にのめり込みました。

AI研究の魅力は、人間にはできるけれど機械には苦手なこと、機械にとって真に難しいことは何かを探ることだと乾さんはいいます。自然言語処理でいえば、AIにやらせることで「言語」とは何か、「意味」とは何か、我々人間はどうやって互いに「理解」し合えているのかといったサイエンスや哲学の問題に迫れる可能性があるからだそうです。

自然言語処理は各国で精力的に研究されています。その中にあって乾?鈴木研究室は世界に伍しており、いくつかの分野ではトップを走っています。人間にしか操れない言語をAIで処理するための問題は無限に残されています。研究テーマは尽きないと、乾さんは楽しそうに語ります。

文責：広報室特任教授渡辺政隆

サイエンスカフェには和服姿で登壇。着物が好きで、飲みに行くときなどによく着る。

問い合わせ先

東北大学総務企画部広報室
E-mail：koho*grp.tohoku.ac.jp（*を@に置き換えてください）

2019年 | プレスリリース?研究成果