none
SpeechJS

    Frage

  • Hallo Allerseits,

    hat jemand von Euch schon mit SpeechJS aus dem Microsoft Cognitive Services gearbeitet und Erfahrungswerte damit?

    Die Anfrage die an den Microsoft Server geschickt wird braucht im Vergleich zur Microsoft Webseite lange.

    Gruß Yvon

    Donnerstag, 14. April 2016 11:50

Antworten

  • Ja, die Clientbibliothek streamt über Websockets soweit ich weiß. Für Steaming kannst du also nicht die REST-API verwenden.

    Viele Grüße,

    Malte

    Freitag, 15. April 2016 09:08

Alle Antworten

  • Hallo SkynetResearch,

    ich kenne mich mit der Microsoft Cognitive Services wenig aus und hoffe, dass sich jemand mit größerer Erfahrung einschaltet.

    Gruß

    Aleksander


    Bitte haben Sie Verständnis dafür, dass im Rahmen dieses Forums, welches auf dem Community-Prinzip „IT-Pros helfen IT-Pros“ beruht,  kein technischer Support geleistet werden kann oder sonst welche garantierten Maßnahmen seitens Microsoft zugesichert werden können.

    Freitag, 15. April 2016 07:48
    Moderator
  • Hi,

    von wo schickst du denn die Anfrage an den Service? Von einer Website auf Azure, einer Website auf deinem eigenen Server oder deinem Desktop?

    Hast du konkrete Vergleichswerte für uns? Dann können wir versuchen das nachzuvollziehen.

    Ich habe es gerade mal ausprobiert. Bei mir ist es von meiner lokalen Maschine nicht wirklich lansamer als auf der Website.

    Bei mir kommen die Antworten für einen Satz (long dictation) über das SpeechJS Sample nach ca. 1,5 Sekunden.

    Warum es auf der Website scheller wirkt, liegt daran, dass das Sample auf der Cognitive Services Website (https://www.microsoft.com/cognitive-services/en-us/speech-api) die Audioinformationen streamt und man sofort die Ergebnisse für einzelen Wörter bekommt. Im SpeechJS Sample wird der ganze Satz übertragen und das Ergebnis zurückgeliefert. Die Unterschiede werden in der Doku beschrieben (https://www.microsoft.com/cognitive-services/en-us/speech-api/documentation/overview)

    REST API versus Client Library

    The Speech Recognition API provides the ability to convert spoken audio to text by sending audio to Microsoft’s servers in the cloud. Developers have a choice of using the REST API or the Client Library.

    • Using the REST API means getting only one reco result back with no partial results. Documentation for the REST API can be found here and code samples here.
    • Using the client library allows for real-time streaming, meaning that as audio is being sent or spoken to the server, partial recognition results are returned at the same time. Real-time streaming is supported on Android, iOS, and Windows.

    Viele Grüße,

    Malte

    Freitag, 15. April 2016 08:02
  • Hallo Malte,

    okay. Das deckt sich mit meinem Test den ich eben gemacht habe. Das heißt ich darf nicht die Rest-API verwenden wenn ich streamen möchte sondern müsste auf dem Client die Bibliotheken installieren?

    Gruß SkynetResearch

    Freitag, 15. April 2016 08:47
  • Ja, die Clientbibliothek streamt über Websockets soweit ich weiß. Für Steaming kannst du also nicht die REST-API verwenden.

    Viele Grüße,

    Malte

    Freitag, 15. April 2016 09:08
  • Hallo Malte, vielen Dank!
    Freitag, 15. April 2016 10:01