2017年11月、DataRobot社は日本で大規模なイベントを開催して、DataRobot4.0を発表した。このDataRobotは、昨年このサイトでも紹介しているが、一言でいうと「機械学習自動化プラットフォーム」である。一般的にビジネスでデータ解析をするには、データサイエンティストが統計学や機械学習の知識を駆使してデータモデルを構築し、データ整形やプログラミングなどの手作業で、試行錯誤を繰り返しながら行っている。DataRobotは、この長期間かかる一連の手作業を、自動化してしまうというソフトウェアだ。
2000年頃から、アメリカの金融業界では貸し倒れリスクを避けるために、大量に保有していた顧客情報を統計的に分析することが始まった。それまでは担当者の経験値だけが頼りだったが、統計学を活用することでリスクを下げ利益を向上させることができたのだ。そして次第に、その業務を生業とするデータサイエンティストが、証券会社などからも注目を浴びるようになる。ビッグデータが流行り出してからデータサイエンティストは、様々な分野から引っ張りだことなり、今では高給取りの筆頭にまで上り詰めている。
ITが世界の仕事の効率化を推し進めたため、どんな業務もコンピューターを用いた自動化の大波に飲み込まれてきた。ところが肝心のコンピューターを動かすソフトウェアだけは、いまだに旧態依然の手作業で作られている労働集約型産業だ。データサイエンティストという花形職業も、その実態は知識と経験がものを言う世界だ。まあ両方とも知識集約型の業務なので、ルーチンワークの多い事務系業務のように効率化は進んでいなかった。
それでもデータサイエンティストのツールである機械学習は、クラウドAIの登場により、毎回RやPythonなどでプログラミングをしなくても、簡単に利用できるようになった。しかし多数のアルゴリズムで試行錯誤をする必要があり、データの中に潜む特徴量の抽出やパラメータのチューニングは経験と勘の世界だ。
近年、特徴量を自動で抽出できるディープラーニングが急速に発達し、そのルーツである機械学習は早々にお払い箱になるかと単純に思っていた。しかし現時点でディープラーニングは、画像認識・音声認識・自然言語処理など利用可能な分野が「認識=分類」に限られている。このため、需要の大きいというか潜在市場規模が大きいと思われる「予測」では、現状データサイエンティストが機械学習を用いるしかなかった。
ところが、このDataRobotの登場により、データサイエンティスト業務の効率化を促す方法ができた。経営者にとってみたら、大勢のデータサイエンティストに高額な給与を支払う必然性が減り、企業利益すなわち株主利益に貢献できるツールができたのだ。強欲資本主義の聖地、ウォール街の覇者ゴールドマン・サックスには、2000年で年収100万ドルといわれているトレーダー達が本社だけで600人もいた。しかしトレーダーの取引手法を機械学習で学んだ、コンピューターによる株の自動取引が大半を占めたため、2017年には人間のトレーダーはわずか2人しかいない。ゴールドマン・サックスによると、「4人のトレーダーは1人のコンピューターエンジニアに置き換えられる」と述べいる。今では同社の総従業員数のおよそ1/3に相当する9,000人を、コンピューターエンジニアが占めているという。さらに「ウォール街の投資分析において最大の課題となっている、従来人の手に依存していた知識労働を、迅速かつ大規模に自動化を実現する」とまで宣言している。
最新版となるDataRobot4.0は、今までの予測、二項分類のアルゴリズムだけではなく、多項分類、異常検知、時系列モデル、さらにモデル係数の手動調整、解析状況を監視するリソースモニターなどの機能追加や拡張がなされている。この100種類以上のアルゴリズムをビルトインしているDataRobotを使うと、あたかも大量のデータサイエンティストが人海戦術で解析をするかのように、一斉に多数のモデルを試して、それらの結果を比較するため、解析精度は高いという。オンプレミスでもクラウドでも利用でき、年間使用料金は千数百万円と高額だが、複数のデータサイエンティストを雇うよりコストは安いと主張する。
実際には、このツールを有効活用するにはデータサイエンティストが必要だと思うが、それでも次第にソフトウェアの中身をブラックボックス扱いして、ユーザーは利用を始めるはずだ。このような効率化ツールは、発達していくのが歴史的必然だろうが、莫大な富を積み上げてきたトレーダーが駆逐されたように、データサイエンティストの将来も安泰ではないだろうな。