今注目のデータサイエンティストに求められる条件

ヤオ・ナン・チェン、機械学習サイエンティスト、Appier

ここ数年、企業が保有するデータ量が爆発的に増加しており、データ管理負担の増大やセキュリティへの対応など、ビジネスに様々な影響を与えている。一方、データを収集、分析し、人工知能(AI)テクノロジーの原動力として利用できる企業にとっては、宝の山といえるだろう。

これからもデータは増加し続け、データ分析技術は進化を続ける。データ利用のニーズが高まれば、データサイエンスやデータサイエンティストの需要はさらに増える。私は2013年からデータサイエンス分野で働いているが、Appierにおいてデータサイエンスチームのみんなと日々新しい謎解きに取り組むことが楽しくて仕方ない。

データサイエンティストの実務

データサイエンスを手短に説明すると、データを使用して現実社会における実務問題を解決方法を提示することである。例えばECビジネスのユーザーのデモグラフィックやアプリの使用パターンを基にレコメンデーションをプッシュ通知する、または特定商品の売上減の理由を分析することなどが、AIを活用した業務に含まれる。

データサイエンティストは、問題解決に取り組む際、まずデータの抽出と連結に着手し、そこからパターンやトレンドを分析していく。その後、それを基に予測モデルの構築、インサイトの抽出、PoC(概念実証)による問題解決の方法を検証する。通常、私たちが手掛ける問題は極めて特殊であり、汎用性のある標準的ソリューションといったものはない。そのため、既成概念の枠を超えてさまざまな可能性のあるソリューションを見いだすことが、データサイエンティストに課せられた使命である。

ソリューションの成果は実際にそれを導入してみるまで分からないため、それが期待どおりの成果をもたらさなかった場合、振り出しに戻り最初からやり直さなければならない。しかし、だからこそ、つかみどころのない問題を突き止め、解決策を考え、成果を収めるプロセスにやりがいと達成感があるといえる。

優れたデータサイエンティストの資質

当然のことながら、どんな仕事にも好きな業務とそうでないものがある。データサイエンティストが楽しめない作業の一つはデータクレンジングである。多くの場合、データサイエンティストはエラーや矛盾を含んだ「ゴミだらけのデータ」を収集する。例えば、データが商品の売上激減を示したとしても、機器の誤動作によって正確なデータが収集されなかっただけかもしれない。 データサイエンスは8割がデータクレンジングで、残りの2割はそれについて文句を言うことだという内輪の冗談さえある。それはさておき、データクレンジングは、手間はかかるが重要な作業である。これが適切に行われなければ、インサイトの正確さと信頼性に重大な影響を与える。

どんなに高度な技術を身に付けていたとしても、優れたデータサイエンティストはこうした細部へのこだわりと注意のほかに、事業領域と事業目標に精通していなければならない。データサイエンティストが提供するソリューションは創造的であるとともに、有用かつ実用的なものでなければならない。

最新の研究や調査、分野の動向

優れたデータサイエンティストであり続けるために、機械学習に関する最新の研究や調査を掌握すること、最新トレンドを理解し、特定の問題の解決方法を検索することは重要なタスクといえる。すでに解決されている問題は、わざわざ最初から取り組む必要はない。そのため、日頃から機械学習の進歩や興味分野の研究論文に目を通すようにしている。それと同様に、同僚との議論や、彼らの研究成果の追跡、機械学習のトレンドに関する意見交換も重要である。これは機械学習の最新動向の把握に役立つ。

AIエキスパートの需要増加

残念ながら、データサイエンティストに対する需要の高まりと、機械学習分野での人材供給にはギャップがある。AI分野の職業は最近新しく生まれたキャリアパスであり、必要な専門知識を備えた人材が不足している。また、データサイエンティストの誰しもがビジネスに精通しているわけではないという事実も、このギャップを広げる原因になっている。データサイエンティストの中には学術研究環境で問題解決を図ることには優れていても、ビジネスに関する現実問題の解決には対応できない場合がある。

今日のデータサイエンティストは、常にスキルを磨いていく必要があると実感する。企業や組織にAIやディープラーニングの導入が進むことによって、下位レベルのタスクは自動化され、データサイエンティストたちはより難解な問題に取り組むことになる。多くのビジネスケースに適用できる簡易モデル構築用のツールは成熟化が進み、使い勝手もますます良くなっていくだろう。

近い将来のデータサイエンティストには、問題解決のために特定の情報を活用する方法をもとめられるようになるだろう。AIテクノロジーの複雑化にともない、データサイエンティストは、単純な処理作業や分析作業を自動化ソフトウェアに託し、より抽象的な問題に取り組むことになると予想している。

執筆者:

チェンはAppierの機械学習担当サイエンティスト。機械学習、データサイエンス、データエンジニアリング分野で5年以上、ECビジネス用のレコメンデーションシステムの開発において3年以上の経験を有する。Appier入社以前はYahoo 台湾にてECビジネス用のレコメンデーションシステム、アプリ告知レコメンデーションシステム、セールスボリューム予測のためのモデルチューニングを担当した。

GDPR(EU一般データ保護規則)に関するよくある質問と回答

QGDPRとは何ですか?

一般データ保護規則(General Data Protection Regulation:GDPR)とは、EU議会が定めたデータの収集、保管、使用の要件に関する新たな法律です。

GDPRは、1995年から適用されたEUデータ保護指令(Data Protection Directive 95:DPD)に代わるもので、EUの人々の個人データの保護を大幅に強化し、個人データを収集または処理する組織に対する義務を強化するものです。

 QGDPRはいつ施行されますか?

GDPRは、2018年5月25日から完全に施行されます。

 QGDPRにより影響を受ける範囲は

GDPRはEUの法律ですが、GDPRの地理的範囲は非常に広く、特定のケースではEU以外の企業にも適用される可能性があります。EU域内で製品を販売し、EUの人々の行動をモニタリングする企業は、GDPRの順守が求められます。

QGDPRにおける個人データとは何を指しますか?

個人を直接的または間接的に特定する目的で使用される自然人(GDPRでは「データ主体」と定義される)に関するあらゆる情報を指します。氏名、写真、電子メールアドレス、銀行口座情報、SNSサイトの投稿、医療情報のほか、コンピューターのIPアドレスも含まれます。

QAppierGDPRの施行に向けてどのように備えていますか

当社は、データ主体のプライバシーを尊重し、一連のプライバシー保護規則の順守を徹底しています。2018年5月に施行されるGDPRをはじめとするEUデータ保護法の要件も順守しています。

当社は、データ主体から当社が収集するデータの取り扱いに関して、Privacy Policyを厳守しています。

QGDPRの詳細な情報はどこに載っていますか?

詳細は、GDPR公式ウェブサイト をご覧ください。