Sirius, ein intelligenter Assistent, die Open-Source-Spracherkennung und Bild vereint

Das Programm, das von einer Gruppe von Forschern an der University of Michigan in Zusammenarbeit mit Google durchgeführt, kombiniert Spracherkennung und Bildanfragen in Form von Fragen und Antworten zu laufen.

Forschung Fortschritte in der Spracherkennung und Bild sind diejenigen, die die nächste Stufe der technologischen Entwicklung markieren. Bisher haben wir eine leichte Entwicklung auf dem Gebiet von großen Unternehmen gesehen.

Cortana Microsoft, Google Now für Google oder Apples Siri entstehen Versionen von intelligenten Assistenten, durch die jeder Riese versucht, einen Fuß in einem Markt zu gewinnen, die viele Möglichkeiten hat, da die Nachfrage nach angeschlossenen Geräten bewegt wachsen in großer Maßstab und damit ein wachsender Bedarf eine Lösung für die rechnerischen Grenzen der aktuellen Architekturen zu finden.

All diese Vorschläge kommerzielle Produkte Sirius hat ein Open-Source-Programm finanziert von Google verbunden und von den Forschern von Clarity Lab an der University of Michigan entwickelt.

Nach Ansicht der Autoren hat Sirius auf eine andere Ebene aus der Entwicklung von virtuellen Assistenten erstellt. In Ihrem Fall integriert sie eine Technologie, die es vollständig kontrolliert werden können, sowohl in Bezug auf Stimme und Vision. Denn es kombiniert Spracherkennung und Bildverarbeitungssystem von natürlicher Sprache und anderen Fragen und Antworten, die in der Cloud läuft.

Was haben wir mit Sirius geschehen ist, die Grenzen der intelligenten persönlichen Assistenten schieben. kann nicht nur mit Ihrer Stimme in Wechselwirkung treten, aber Sie können auch Fragen fragen, was Sie sehen, es ist eine neue Art und Weise mit dieser Art von Gerät zu interagieren „, erklärt Johann Hauswald, Doktorand Clarity Lab.

Zum Zeitpunkt seiner Veröffentlichung Nutzer können Fragen an das Gerät oder mit einer Kombination von Wörtern und Bildern, wie zum Beispiel ein Foto von einem Restaurant, gefolgt von der Frage stellen Anfragen zu fragen: „Wenn Sie diese lokale schließen“, anstatt in den sehen Sirius Forscher können nicht vorhandene Produkte machen.

Der Grundgedanke hinter dem Projekt basiert ist eine offene Software zu erstellen, die alle Entwickler interessiert zugreifen kann es in jede eigene Produkt zu integrieren.

Sirius durch GitHub demokratisiert und von einer BSD-Lizenz profitieren, was bedeutet, dass ihre Nutzung und die anschließende Verteilung frei sein werden.

Doch was diese offene Plattform Intelligente virtuelle Unterstützung auffällt, ist die mächtige Rahmen führende Vielzahl von eingesetzten Techniken.

Für Software, die von der Carnegie Mellon University entwickelt unter Verwendung von Sphinx Spracherkennung in Kombination mit Caffe, tiefe Lernplattform, die künstliche neuronale Netze verwendet. Die Liste geht weiter mit SURF, einem Algorithmus, der die Fähigkeit hat, wichtige Punkte in einem Bild zu extrahieren und in OpenCV umgesetzt. Schließlich Fragen zu beantworten, verwendet Sirius das OpenEphyra System, eine andere offene Plattform von der Carnegie Mellon University erstellt.

Sirius Schöpfer haben eine Seite für Entwickler zur Verfügung zu stellen, die die Suite von Downloads für alle Programme enthalten, die erforderlich sind, zu installieren und auch auf einem Tutorial arbeiten zu lehren, wie intelligenten Assistent arbeitet.

Stichworte

GoogleSpracherkennung