機械学習と読書の世界

機械学習・深層学習用API一覧

6.機械学習・深層学習用API一覧

機械学習・深層学習用として提供されているAPI一覧です。頻繁に更新されているので、ご注意ください。

6-1.クラウド企業のAPI(Amazon,IBM,Google,Microsoft)
6-2.日本企業のAPI(docomo、goo、リクルートテクノロジーズA3RT、Jetrun、Studio Ousia)

6-1.クラウド企業のAPI

Amazon
・Amazon Lex
Amazon Alexa と同じテクノロジーを活用して、自動音声認識 と自然言語理解 という高度な深層学習機能を利用でき、チャットボットを構築できる
・Amazon Polly
文章をリアルな音声に変換するサービス。20 を超える言語で男性や女性の声のような自然な音声でアプリケーションを構築できる。
・Amazon Rekognition
画像内の物体、シーン、顔を検出することや、画像間で顔の検索や比較を実行ができる。

Google
・CLOUD VISION API
顔検出:画像に含まれる複数の人物の顔を検出できる。感情や帽子の着用といった主要な顔の属性についても識別される。 ただし、個人を特定する顔認識には対応していない。

画像属性:画像のドミナント カラーや切り抜きのヒントなど、画像の一般的な属性を検出。

ウェブ検出:類似の画像をインターネットで検索。

ラベル検出:乗り物や動物など、画像に写っているさまざまなカテゴリの物体を検出。

不適切なコンテンツの検出:アダルト コンテンツや暴力的コンテンツなど、画像に含まれる不適切なコンテンツを検出。

ロゴ検出:画像に含まれる一般的な商品ロゴを検出。

ランドマーク検出:画像に含まれる一般的な自然のランドマークや人工建造物を検出。

光学式文字認識(OCR):画像内のテキストを検出、抽出。幅広い言語がサポートされており、言語の種類も自動で判別される。”
・CLOUD VIDEO INTELLIGENCE API(ベータ版)
ラベル検出:「犬」、「花」、「車」などの動画内のエンティティを検出。
ショット変更の検出:動画内のシーンの変更を検出。
リージョン指定:規制遵守のため、処理が行われるリージョンを指定。”
・CLOUD NATURAL LANGUAGE API
構文解析:トークンと文の抽出、品詞(PoS)の特定、各文の係り受け解析ツリーの作成が可能。
エンティティ分析:エンティティ(人、組織、場所、イベント、商品、メディアなど)を識別して、ラベルを付ける。

感情分析:テキストのブロック内で示されている全体的な感情を読み取ることができる。

エンティティ感情分析:テキストのブロック内にある個々のエンティティの感情を把握できる。

多言語対応:さまざまな言語のテキストを簡単に分析できる。英語、スペイン語、日本語、中国語(簡体字および繁体字)、フランス語、ドイツ語、イタリア語、韓国語、ポルトガル語に対応。”
・CLOUD SPEECH API
自動音声認識:ディープ ラーニングのニューラル ネットワーキングを利用した自動音声認識(ASR)を音声検索や文字起こしなどのアプリケーションで活用できる。

ストリーミングでの認識:ユーザーが話している途中でも、認識結果が部分的に得られれば、すぐに結果を返す

ノイズ低減:雑音の多い音声も正常に処理できる。ノイズ除去の必要がない。

不適切なコンテンツのフィルタリング:一部の言語では、認識結果のテキストから不適切なコンテンツをフィルタリングできる。”
・CLOUD TRANSLATION API
テキスト翻訳:Translation API は 100 を超える言語と何千もの言語ペアに対応している。翻訳したいテキストを HTML で送信すると、翻訳されたテキストを HTML で取得できまる。ソーステキストを抽出したり、翻訳されたコンテンツの構成を組み直したりする必要はない。

言語の検出:RESTful API を使用して、ドキュメントの言語を検出し、翻訳を行う。

継続的な更新:Translation API のバックグラウンドでは、ログ分析や人による翻訳の例から、絶えず学習が行われてる。また、既存の言語ペアの改善や新しい言語ペアの追加についても、すべて追加費用なしで利用できる。
・CLOUD JOBS API(アルファ版)
きわめて直観的に使える仕事検索機能を提供する。求職者が何を求めているかを予測し、新しいチャンスを見出せるよう的を絞った提案を行う。機械学習を使用して、職種とスキルの関係性、求職者の好みに最も近い職務内容、勤務地、勤続期間を学習し、関連性の高い結果や提案を提供する。

IBM
・Conversation
Watsonではさまざまなコグニティブ技術を組み合わせて、ボットの作成とトレーニングを行う。インテントとエンティティーを定義し、対話を作成して会話をシミュレーションする。システムは、補足テクノロジーによりさらに洗練することが可能。システムをより人間らしくしたり、的確な応答を返す確率を上げたりできる。Watson Conversationを使用すると、さまざまなボットを多くのチャネルに導入できる。対象を限定した単純なボットから、より洗練された高性能の仮想エージェントまでを、モバイル・デバイス、Slackなどのメッセージング・プラットフォーム、さらには物理ロボットまでに渡って利用できる。
・Visual Recognition
イメージやビデオ・フレームの内容を理解できる。イメージをサービスに送信すると、対象物、場面、環境などを表す関連種別のスコアが返される。Visual Recognitionは、イメージに含まれる対象や物体を自動的に識別して、論理的なカテゴリーに分類する。また、特定のコンテンツやカスタム・コンテンツについてVisual Recognitionをトレーニングすることも可能。
・Language Translation
過去数十年にわたるIBMの研究の成果である統計的機械翻訳技術を利用して、ドメインに特化した翻訳を提供する。特定のドメインに特化した複数の翻訳モデルと、特定言語のテキストに対する3つのセルフサービス・カスタマイズ・レベルがサービスで提供される。(日本語対応していない)
・Natural Language Classifier(日本語対応)
機械学習や統計アルゴリズムに関する予備知識がなくても、アプリケーションに自然言語インターフェースを作成できる。このサービスは、テキストの背後にある意図を解釈し、関連度合いを信頼度レベル付けして分類して戻す。戻り値を使って、要求を転送したり、質問に回答するなどのアクションを取ることができる。
・Personality Insights日本語対応)
パーソナリティーの特性を抽出して分析することで、人やエンティティーに関するアクション可能な洞察を引き出し、その結果エンド・ユーザーに高度にパーソナライズされた対話を可能にする。 このサービスは、パーソナリティーの特性を、ビッグ・ファイブ、価値、ニーズの3つの次元に分割して出力する。
・Retrieve and Rank(日本語対応)
検索と機械学習アルゴリズムの組み合わせからデータ内のシグナルを検出し、問合せに対する最も関連性の高い情報を検索する。Apache Solr上に構築されていて、開発者はデータをサービスにロードして、既知の結果に基いて機械学習モデルを訓練し、このモデルを活用して改善された結果を、質問や照会に応じてエンド・ユーザーに提供できる。
・Tone Analyzer
言語分析を使用して、テキストから感情、性格的傾向、文体の3種類のトーンを検出する。感情としては、怒り、不安、喜び、悲しみ、嫌悪などを検出。性格的傾向については、一部の心理学者が提唱するBig 5(ビッグ・ファイブ)性格特性を検出。Big 5とは、開放性、誠実性、外向性、協調性、情緒安定性で、文体については、確信的、分析的、あいまいなどのスタイルを検出する。
・Speech to Text(日本語対応)
会話から文字を書き起こす。人工知能により、文法や言語構造に関する情報と音声信号の組成に関する知識を組み合わせて、正確に文字を書き起こす。複数の言語の音声が IBMの音声認識機能によってテキストに変換され、音声は僅かな遅延で書き起こされる。
・Text to Speech(日本語対応)
REST APIを使用してテキスト入力から音声を合成。ブラジル・ポルトガル語、英語、フランス語、ドイツ語、イタリア語、日本語、スペイン語の各言語で男女の音声が複数利用できる。リアルタイムで合成された音声は、僅かな遅延でストリーミングされ、開発者は、特定の単語の発音を制御できる。
・Document Conversion(日本語対応)
文書を新しい形式に変換。入力はPDF、Word、HTML文書、出力は他のWatsonサービスでも使用可能なHTML文書、テキスト文書、Answerユニット。

Microsoft
・Microsoft Computer Vision
画像を分類するための情報を抽出する。画像内にあるビジュアル コンテンツに関する情報が返される。タグ付け、説明、ドメイン固有モデルを使用してコンテンツを特定し、確実にラベル付けする。
画像内のテキストの読み取り、画像からの手書き文字の読み取り、著名人およびランドマークの認識、ほぼリアルタイムでビデオを分析が可能。
関心領域を保持したまま、高品質でサイズ効率のいいサムネイルを生成できる。”
・Microsoft Emotion
画像やビデオの中の人物の表情を入力として取り、Face API を使って画像の中の顔それぞれについて一連の感情の信頼度と、顔の境界ボックスを返す。検出される感情は、怒り、軽蔑、嫌悪感、恐怖、喜び、中立、悲しみ、驚き。
Microsoft Face
顔検証:2 つの顔が同一人物のものである確率を検証。検証後、2 つの顔が同一人物のものである可能性の度合いを示す信頼度スコアが返される。

顔検出:画像内の人間の顔 (複数可) を検出して、検出した顔の画像内での位置を示す顔矩形と、機械学習に基づく顔の特徴の予測値を含む顔属性を返す。顔属性の特徴には 年齢、感情、性別、姿勢、笑顔、ひげがあり、画像内の顔ごとに 27 個の目印も示される。

顔識別:顔を検索して特定します。ユーザーが指定したデータから人物とグループをタグ付けし、未確認の顔と一致するものを探し出すことができる。
似た顔の検索:見た目が似ている顔を簡単に検索できる。この API では、顔のコレクションと新しい顔をクエリとして指定すると似た顔のコレクションが返る。

顔のグループ化:さまざまな身元不明の顔を、見た目の類似性に基づいてグループにまとめる。
・Microsoft Video
ビデオのブレを補正。顔を検出して追跡。ビデオのサムネイルを作成。
モーション検出:静止背景のビデオで動きがあった瞬間を検出。このサービスでは入力されたビデオを分析して動きが検出されたフレームに関するメタデータを出力するとともに、動きのあった正確な座標を明示する。

ほぼリアルタイムの分析:ご使用のデバイスでビデオのフレームを抽出し、それらのフレームをお好きな API 呼び出しに送信することで、Face API、Emotion API、Computer Vision API をビデオ ファイルやライブ ストリームですぐに使用できる。”
・Translator Speech API
クラウド ベースの自動翻訳サービス。この API を使用することで、開発者は、エンドツーエンドでリアルタイムの音声翻訳を自社のアプリケーションやサービスに追加できる。
・Speaker Recognition API
話者認証:認証にご自分の音声を使います。この API を使用して、インテリジェントな認証ツールを含むアプリケーションを開発することができます。話者が特定の ID を主張した場合、音声を使用してこの主張を検証します。

話者識別:話者を識別します。この API を使用して、不明な話者の ID を特定することができます。”
・Bing Speech API
音声認識:オーディオをテキストに変換。この API は、マイクからのリアルタイムなオーディオ認識、別のリアルタイムなオーディオ ソースのオーディオ認識、またはファイル内のオーディオ認識のいずれかに切り替えることができる。いずれの場合も、リアルタイム ストリーミングも利用できるため、オーディオがサーバーに送信されると同時に部分認識の結果も返される。

テキストから音声へ:テキストから音声への変換アプリケーションからユーザーに “応答“ し返す必要がある場合、この API を使用して、アプリで生成されたテキストをオーディオに変換し、それをユーザーに向けて再生できる。
・Translator Text API
クラウドベースの機械翻訳サービスであり、世界の国内総生産の 95% 以上に達する国々のさまざまな言語をサポートしている。
・Microsoft Bing Spell Check
スペルミスを修正し、名前・ブランド名・スラングの違いを認識し、同音異義語を理解するのを助ける。
・Web Language Model API
単語分割:ハッシュタグや URL の一部など、スペースを開けずに単語が並んでいる文字列にスペースを挿入する。
結合確率:特定の単語の並びが一緒に出現する頻度を計算する。

条件付きの確率:一連の単語を指定すると、特定の単語がどれぐらいの頻度で直後に続く傾向にあるかを計算する。次の単語候補:一連の単語の並びを指定すると、直後に続く可能性が最も高い単語の一覧を取得する。
・Language Understanding Intelligent Service (LUIS)
カスタム言語モデルの構築:人とコンピューターのやり取りにおける主な問題の 1 つに、人が求めているものを理解し、その人の意図に関連する情報を見つけるというコンピューターの能力がある。LUISは、シンプルなツールで独自の言語モデル (インテント/エンティティ) を構築ができ、あらゆるアプリケーションやボットがコマンドを理解しそれに従って動作するようにできる。
・Microsoft Linguistic Analysis
高度な言語分析ツールを使用して自然言語を処理するため、品詞のタグ付けや構文の解析が可能。これらのツールにより、重要な概念とアクションに焦点を合わせることができる。
品詞をタグ付けすることでテキストの概念とアクションを識別できる従来の言語分析ツールを利用でき、自然言語パーサーを使ってフレーズと概念を検出できる。
・Microsoft Text Analytics
評判分析:英語、フランス語、スペイン語、ポルトガル語のテキストをサポート。
重要なフレーズを抽出:入力されたテキストの主なテーマを示す文字列のリストを API が返す。英語、ドイツ語、スペイン語、日本語のテキストをサポート
言語を検出:120 の言語がサポートされる。
・Bing Autosuggest API
入力内容に応じた提案により検索を高速化:インテリジェントな先行入力機能をアプリや Web サイトに追加して、ユーザーのクエリ入力を高速化できる。自動かつ完全な検索補完機能によりユーザーの入力の手間を省き、操作を効率化できる。
・Bing Image Search API
Web での画像検索に役立つ。検索結果にはサムネイル、画像の完全な URL、発行元 Web サイトの情報、画像のメタデータなどが含まれる。画像のメタデータには、自動生成のキャプション、見た目が類似する画像、ショッピングやレシピの情報源、関連する画像検索などが含まれる。
・QnA Maker API
質問と回答を抽出:QnA Maker は、FAQ URL、ドキュメント、本文の内容などのユーザーが指定したコンテンツから、考えられるすべての質問と回答のペアを抽出する。
・Bing News Search API
Web でニュース記事を検索できる。検索結果にはニュース記事と関連性の高い画像、関連するニュースとカテゴリ、提供元の情報、記事の URL、追加された日付などの詳細情報が含まれる。
・Bing Video Search API
Web からビデオを探せる。検索結果には、作成者、エンコード形式、ビデオの長さ、閲覧数などの有用なメタデータが含まれる。
・Bing Web Search API
Bing でインデックス設定された Web ドキュメントを取得し、結果の種類、新しさなどで結果を絞り込む。検索結果と回答をランク付けし、好みのレイアウトに合わせて表示できる。ユーザーの所在地または市場に合わせて結果がカスタマイズされる。検索結果のセーフ サーチのレベルをカスタマイズできる。結果には成人向けフラグも含まれ、フラグは真または偽の値で指定される。
・Bing Entity Search API
検索した用語を基に、近くにいる (ある) 有名な人、場所、映画、テレビ番組、ビデオ ゲーム、本、地元企業など、複数のエンティティ タイプから最も関連性が高いエンティティを特定できる。
・Microsoft Academic Knowledge
自然言語のユーザー クエリ文字列を解釈する。注釈つきの解釈を返し、ユーザ
ーの入力内容を予測する検索ボックスの高性能な自動補完を実現する。
・Microsoft Knowledge Exploration Service
自然言語入力による構造化データの対話型検索を可能にする。
・Microsoft Recommendations
顧客が欲しい品物を勧める。過去の取引から学習して、顧客が関心を持つ可能性が高いアイテムや購入する可能性が高いアイテムを予測する。Azure Machine Learning を基に構築されたレコメンデーション エンジンでは、顧客データ (アップロード済みの過去の顧客の活動、またはデジタル ストアで直接収集したデータ) を使用して、顧客にお勧めの品物を提供し、コンバージョン率を向上させる。

メッセンジャーで遊べる無料のチャットボット

Amazonで「ディープラーニング入門書」を発売中

Amazonで「機械学習の入門書」を発売中

面白い本を探している本好きの人にお薦めします

Amazonから紙の本でも発売中

ミステリィやエンターテイメント、恋愛小説に文芸小説など、確実に面白い本100冊を紹介するブックレビューです

PAGETOP
Copyright © TickTack World All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.