今注目のデータサイエンティストに求められる条件

ヤオ・ナン・チェン、機械学習サイエンティスト、Appier

ここ数年、企業が保有するデータ量が爆発的に増加しており、データ管理負担の増大やセキュリティへの対応など、ビジネスに様々な影響を与えている。一方、データを収集、分析し、人工知能(AI)テクノロジーの原動力として利用できる企業にとっては、宝の山といえるだろう。

これからもデータは増加し続け、データ分析技術は進化を続ける。データ利用のニーズが高まれば、データサイエンスやデータサイエンティストの需要はさらに増える。私は2013年からデータサイエンス分野で働いているが、Appierにおいてデータサイエンスチームのみんなと日々新しい謎解きに取り組むことが楽しくて仕方ない。

データサイエンティストの実務

データサイエンスを手短に説明すると、データを使用して現実社会における実務問題を解決方法を提示することである。例えばECビジネスのユーザーのデモグラフィックやアプリの使用パターンを基にレコメンデーションをプッシュ通知する、または特定商品の売上減の理由を分析することなどが、AIを活用した業務に含まれる。

データサイエンティストは、問題解決に取り組む際、まずデータの抽出と連結に着手し、そこからパターンやトレンドを分析していく。その後、それを基に予測モデルの構築、インサイトの抽出、PoC(概念実証)による問題解決の方法を検証する。通常、私たちが手掛ける問題は極めて特殊であり、汎用性のある標準的ソリューションといったものはない。そのため、既成概念の枠を超えてさまざまな可能性のあるソリューションを見いだすことが、データサイエンティストに課せられた使命である。

ソリューションの成果は実際にそれを導入してみるまで分からないため、それが期待どおりの成果をもたらさなかった場合、振り出しに戻り最初からやり直さなければならない。しかし、だからこそ、つかみどころのない問題を突き止め、解決策を考え、成果を収めるプロセスにやりがいと達成感があるといえる。

優れたデータサイエンティストの資質

当然のことながら、どんな仕事にも好きな業務とそうでないものがある。データサイエンティストが楽しめない作業の一つはデータクレンジングである。多くの場合、データサイエンティストはエラーや矛盾を含んだ「ゴミだらけのデータ」を収集する。例えば、データが商品の売上激減を示したとしても、機器の誤動作によって正確なデータが収集されなかっただけかもしれない。 データサイエンスは8割がデータクレンジングで、残りの2割はそれについて文句を言うことだという内輪の冗談さえある。それはさておき、データクレンジングは、手間はかかるが重要な作業である。これが適切に行われなければ、インサイトの正確さと信頼性に重大な影響を与える。

どんなに高度な技術を身に付けていたとしても、優れたデータサイエンティストはこうした細部へのこだわりと注意のほかに、事業領域と事業目標に精通していなければならない。データサイエンティストが提供するソリューションは創造的であるとともに、有用かつ実用的なものでなければならない。

最新の研究や調査、分野の動向

優れたデータサイエンティストであり続けるために、機械学習に関する最新の研究や調査を掌握すること、最新トレンドを理解し、特定の問題の解決方法を検索することは重要なタスクといえる。すでに解決されている問題は、わざわざ最初から取り組む必要はない。そのため、日頃から機械学習の進歩や興味分野の研究論文に目を通すようにしている。それと同様に、同僚との議論や、彼らの研究成果の追跡、機械学習のトレンドに関する意見交換も重要である。これは機械学習の最新動向の把握に役立つ。

AIエキスパートの需要増加

残念ながら、データサイエンティストに対する需要の高まりと、機械学習分野での人材供給にはギャップがある。AI分野の職業は最近新しく生まれたキャリアパスであり、必要な専門知識を備えた人材が不足している。また、データサイエンティストの誰しもがビジネスに精通しているわけではないという事実も、このギャップを広げる原因になっている。データサイエンティストの中には学術研究環境で問題解決を図ることには優れていても、ビジネスに関する現実問題の解決には対応できない場合がある。

今日のデータサイエンティストは、常にスキルを磨いていく必要があると実感する。企業や組織にAIやディープラーニングの導入が進むことによって、下位レベルのタスクは自動化され、データサイエンティストたちはより難解な問題に取り組むことになる。多くのビジネスケースに適用できる簡易モデル構築用のツールは成熟化が進み、使い勝手もますます良くなっていくだろう。

近い将来のデータサイエンティストには、問題解決のために特定の情報を活用する方法をもとめられるようになるだろう。AIテクノロジーの複雑化にともない、データサイエンティストは、単純な処理作業や分析作業を自動化ソフトウェアに託し、より抽象的な問題に取り組むことになると予想している。

執筆者:

チェンはAppierの機械学習担当サイエンティスト。機械学習、データサイエンス、データエンジニアリング分野で5年以上、ECビジネス用のレコメンデーションシステムの開発において3年以上の経験を有する。Appier入社以前はYahoo 台湾にてECビジネス用のレコメンデーションシステム、アプリ告知レコメンデーションシステム、セールスボリューム予測のためのモデルチューニングを担当した。

AI 基礎講座:深層学習

あなたが特定のマーケティングキャンペーンのための方法を模索しているマーケターであると想像してほしい。もしあなたがターゲットとしているユーザーの経済力、購買傾向、オンラインショッピングでの行動といった要素を元に市場を簡単に分類できるツールを持つことで、分類されたそれぞれの消費者に向けたアプローチが可能になり、最大のコンバージョンを獲得するための効果的なメッセージを配信することができたらどうだろうか?これらは深層学習によって導き出せることのひとつだ。

深層学習は、人間の脳の情報処理の方法を真似るかたちで開発した最先端のニューラルネットワークの一つであり、バラバラで抽象的なデータからゴール指向のモデルを抽出する方法のことだ。複数階層のニューロンを使って情報を分析する点で、これまでの機械学習と区別される。

深層学習プログラムは、音声認識や、消費者の行動予測といった、人間のようなタスクをこなせるようコンピュータを訓練する。コンピュータに大量のデータを与え、求められている結果がどのようなものかを教え込む。より多くのデータを与えれば与えるほどより良い処理を行うことができる。

プログラムは、計算方法を変更しながら、あるレベルの結果を導き出すための計算式を見つけだし、その計算式を想定した結果が出るまで繰り返し処理し続ける。

ここでいう「深い」とは、分析結果を導き出すために行われるデータ処理の回数のことであり、学習アルゴリズムがどのように複雑で階層的な方法で積み重ねられているかを表している。より多くの階層があれば、それだけ深く学習するということだ。

深層学習は膨大なデータを分析して、パターンを見つけ出し、トレンドや結果を予測することができる。消費者の行動、キャンペーンの成果、マーケティングの自動化、洗練された購入者分類、販売予測など、深層学習によって活用できる機能はマーケターにとって特に興味深いに違いない。

Appier はマイナビニュースに「知っておきたい! 仕事で使えるAI(人工知能)の基本とは?」をテーマとした連載を行っています。こちらもぜひお読みください。