1. HOME
  2. 役立つ記事
  3. AI技術を使ったシステム導入時に気を付ける3つのポイント(データ編)
役立つ記事

AI技術を使ったシステム導入時に気を付ける3つのポイント(データ編)

役立つ記事

この記事ではAI技術に不可欠な学習データの取得、利活用の段階での3つのポイントを解説します。ポイントは精度を向上させるための学習に関する”1.AI学習の注意点と過学習の防止”、データの取得に関するハードウェア関係の要件に関する”2.データ取得とハードウェアの要件””3.データの利活用に関する個人情報保護法への対応”となります。
システム企画・導入時に気を付けるポイントに関しては以下の記事で言及しておりますのでご参考ください。

なお、本記事の対象とする”AI”は近年話題になっている深層学習、機械学習を主に想定して記載しています。また、本記事はAIソリューション導入の検討している方や提案する非技術担当の方を主な対象としています。

AI学習の注意点と過学習の防止

AI技術の根本的な価値は、学習データによる精度の向上ですが、その過程での学習データのラベル付け、過学習の防止は非常に大事な観点です。本章ではその概要と必要性について解説します。
<AIの学習における注意点>
ソリューションに関わらず、AIの学習には以下の要素が最低1つ必要になります。
・ラベル付けされた一定量以上のデータ
・学習時におけるデータ毎の要素(特徴量)の調整
近年、”大量の学習データによる深層学習(ディープラーニング)によって、AIが重要な要素(特徴量)を自動で抽出、判断し、様々な情報精度を向上させる” などのニュースを良く耳にします。それは間違いとは言えませんが一部誤解を生む表現になっていると言えます。先端の深層学習モデルであっても、学習データに適切なラベル付けがされていないと、AIデータにおける重要な要素(特徴量)が判断できないため、精度を向上させることが出来ません。そのため、データにラベル付けをする、また適切な要素(特徴量)を手動で調整する必要があります。
<過学習の防止>
過学習(過剰適合)とは、学習データ量や種類不足が主たる要因となり、実運用において精度が上がらないことを指しますが、以下のポイントを実施することで抑制することが出来ます。
-過学習の抑制方法-
・学習データの量、種類を増やす。
・学習データの分布を見直し、外れ値となるデータを排除する。(正規化する)
・データの要素(特徴量)を調整する。

データ取得とハードウェアの要件

AI精度を向上させる上では、データ取得の為のハードウェア性能・配置も重要となります。AI技術の特長的な機能には、音声認識・画像認識・自然言語処理・予測・推論などが挙げられますが、ハードウェア性能が特に重要とされる音声認識、画像処理でのハードウェア必要要件について解説します。
<音声認識>
音声認識の用途によって、マイク性能に対する必要要件が変わります。大まかには以下の点で判断します。
-判断ポイント-
a.音声入力範囲の広さ
b.出力内容の広さ
入力される音声範囲が広く、文字書き出しなどの出力形式とする場合は高性能が求められます。一方で音声データの範囲が狭く(特定の業界、場面などでしか使われない)、出力パターンがスイッチオンオフに限られる場合、音声データに求められる品質が下がるのでマイク性能も下がります。
例えば、打ち合わせ内容の書き起こしの場合、aもbも広いため、通常のICレコーダー+AI音声エンジンでは精度が上がらない可能性が高く、会議室向けの特製マイク、高性能マイクを使う事が必要となります。また、複数人が話すなどの情報を入力データとする場合、雑音を少しでも抑える必要がある為、マイク自体の性能に加え、各人の前にマイクを配置するなど、物理的な位置関係も重要になります。
<画像認識>
画像認識も用途によってカメラ性能に対する必要要件が変わります。大まかには以下の点で判断します。
-判断ポイント-
a.対象画像の差分(差が小さい画像のほうが高画素数のカメラが必要)
b.対象の周辺環境(周辺環境よって見え方が変わるほど高画素数のカメラが必要)
c.対象の動き(動体検知機能に関する要件に影響)
認識対象を比較する際に差が小さい場合、また周辺環境によって見え方が変わる程、高画素数のカメラが必要となります。例えば、設備やインフラの微妙な劣化を判断する場合、来客の表情を判断する場合などです。また設置場所の環境によっても、認識性能精度が大きく変わります。設置に関しては特にケースバイケースとなるので、カメラ性能や設置に関するノウハウを持つAIソリューションベンダーと共にテストしていくことが重要です。

データの利活用に関する個人情報保護法への対応

近年、データの利活用の活発化に応じて個人情報保護の重要性が高まっており、AIにおける個人情報データの利活用においても重要性が唱えられています。本章ではデータ利活用における個人情報保護法の範囲と特定について解説します。
<個人情報の範囲と特定>
-AI導入時に利活用する個人情報-
a.顔が映っている画像データ
b.音声データ
c.AIアルゴリズムによって個人が特定できるデータ
上記において、a、bは通常通り、特定される個人情報となりますが、cは一見個人情報に見えない数値データ、バラバラなデータ”であってもアルゴリズムによって個人を特定出来るものであり、個人情報となり、個人情報保護法では”個人識別符号”という言葉で定義づけられております。

詳しくは以下のURLを参考にしてください。
個人情報保護委員会
『個人情報の保護に関する法律についてのガイドライン(通則編)』
https://www.ppc.go.jp/personalinfo/legal/

そのためAIに利用されるデータは、上記の定義に入るかの確認が必須となります。

まとめ

  • AIの学習において、ラベル付けされた一定量以上のデータ
  • 学習時におけるデータ毎の要素(特徴量)の調整
    上記どちらか、または両方が必要である
  • AI学習において過学習を抑える必要がある
  • AIソリューション単体ではなく、ハードウェアの性能、配置が必要となる場合があり、入力と出力が主な変数となる
  • AIにおいて利活用する個人情報に一見個人情報に見えないものがあり、個人情報保護法では”個人識別符号”と定義されている

お問い合わせページへ
本サイトを運営しております株式会社WillSmartは事業立ち上げから企画・ソフト、ハードを組み合わせたソリューションの開発・運用サポートを提供しております。記事の内容や関連する事柄についてお聞きしたいこと、ご意見がありましたら、お気軽にお問い合わせください。

メルマガでは、定期的(月に2度)にコンテンツの更新状況をお伝えする予定です。ご興味のある方は以下よりご登録ください。
メルマガ登録