{"id":200523,"date":"2018-02-04T01:16:00","date_gmt":"2018-02-04T00:16:00","guid":{"rendered":"https:\/\/www.borncity.com\/blog\/?p=200523"},"modified":"2018-02-03T23:10:25","modified_gmt":"2018-02-03T22:10:25","slug":"sprachassistenten-hacken-die-unerkannte-gefahr","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2018\/02\/04\/sprachassistenten-hacken-die-unerkannte-gefahr\/","title":{"rendered":"Sprachassistenten hacken, die unerkannte Gefahr"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" style=\"float: left; margin: 0px 10px 0px 0px; display: inline\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2015\/01\/Schutz.jpg\" width=\"40\" align=\"left\" height=\"47\"\/>Sprachassistenten wie Amazons Alexa, Apples Siri oder Googles Google Now sind ja extrem beliebt. Aber die Ger\u00e4te stellen auch eine reale Gefahr dar \u2013 Forscher haben jetzt gezeigt, wie man durch in Audiodateien eingestreute Sprachbefehle die Sprachassistenten \u00fcbert\u00f6lpeln kann. <\/p>\n<p><!--more--><\/p>\n<p>Das Ganze l\u00e4uft unter dem Begriff 'masked messages' und wurde <a href=\"https:\/\/www.theregister.co.uk\/2018\/01\/30\/boffins_songs_ai_assistants\/\" target=\"_blank\">hier<\/a> von The Register thematisiert. Die Idee: Man bringt Sprachanweisungen in einem Musikst\u00fcck unter, und bringt einen Benutzer dazu, diese Musik zu h\u00f6ren. \u00dcber die eingemischten, aber maskierten Sprachanweisungen lassen sich dann Sprachassistenten wie Siri, Alexa etc. \u00fcbernehmen (hijacken).<\/p>\n<h2>Bisher noch wenig Forschung in diesem Bereich<\/h2>\n<p>Bisher wurde noch wenig Arbeit in den Bereich 'hacken von Audio- und Spracherkennung' investiert. Die Forscher konzentrierten sich darauf, einzelne Pixel in Bildern zu ver\u00e4ndern, um Algorithmen ohne erkennbare visuelle Artefakte auszul\u00f6sen. Bisher war es nicht offensichtlich, ob Audioangriffe funktionieren, das Ver\u00e4nderungen im Audiosignal normalerweise nicht von sprachgesteuerten Ger\u00e4ten wie Amazon Echo erkannt werden k\u00f6nnen.<\/p>\n<p>Letztes Jahr schlug eine Gruppe Forscher eine Dolphin-Attacke vor, um softwarebasierte Spracherkennungsanwendungen zu manipulieren. Dort sollten Ger\u00e4usche au\u00dferhalb des H\u00f6rbereichs des menschlichen Ohrs verwendet werden. Dies funktioniert, kann aber durch durch eine Technologie, die Ultraschallsignale herausfiltert, verhindert werden. <\/p>\n<h2>Popul\u00e4re Songs mit maskierten Sprachbefehlen<\/h2>\n<p>Informatiker, die mit IBM und Universit\u00e4ten in China und den Vereinigten Staaten kooperieren, haben nun einen Weg gefunden, um verdeckte Befehle im h\u00f6rbaren Frequenzspektrum an sprachbasierte KI-Software &#8211; wie Apple Siri, Amazon Alexa, Google Assistant und Microsoft Cortana &#8211; zu senden. Diese maskierten Befehle mischen sie in popul\u00e4re Songs ein und bezeichnen das Ganze als CommanderSongs.<\/p>\n<p>Die Theorie der \"kontradiktorischen St\u00f6rungen\" ist im Dokument <a href=\"https:\/\/arxiv.org\/pdf\/1801.08535.pdf\" target=\"_blank\">CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition<\/a> (PDF) beschrieben. Angriffe \u00fcber \"kontradiktorischen St\u00f6rungen\" (adversarial attacks) stellen eine M\u00f6glichkeit zum T\u00e4uschen von KI-Systeme dar. Dazu werden Eingabedaten ver\u00e4ndert, um die gew\u00fcnschten Ergebnisse aus einem bestimmten System zu erhalten.<\/p>\n<p>Die CommanderSong-Forscher aus dem State Key Laboratory of Information Security (SKLOIS), der University of Chinese Academy of Sciences, dem Florida Institute of Technology, der University of Illinois at Urbana-Champaign, dem IBM T. J. Watson Research Center und der Indiana University sagen, dass ihre Technik zwei Besonderheiten aufweist: Sie beruht nicht auf einer anderen Technologie, um den Befehl in der Audiodatei zu verbergen. Und sie kann nicht durch Audiofrequenzfilter blockiert werden.<\/p>\n<h2>Ger\u00e4usche k\u00f6nnen Spracherkennungssysteme ausl\u00f6sen <\/h2>\n<p>Aus fr\u00fcheren Arbeite war bekannt, dass verst\u00fcmmelte Ger\u00e4usche Spracherkennungssysteme ausl\u00f6sen k\u00f6nnen. \"Unsere Idee, einen Sprachbefehl zu maskieren besteht darin, ihn in ein Lied zu integrieren\", erkl\u00e4ren sie in ihrer Arbeit. \"Auf diese Weise f\u00fchrt die Spracherkennung bei der Wiedergabe des fertigen Songs den eingef\u00fcgten Befehl aus, w\u00e4hrend die Benutzer den Song wie gewohnt h\u00f6rt\". Die Forscher sehen durchaus einen praktischeren Angriffsvektor in diesem Ansatz. <\/p>\n<p>Zuerst begannen die Forscher mit einem zuf\u00e4llig ausgew\u00e4hlten Song und einer Befehlsspur, die von einer Text-to-Speech-Engine generiert wurde. Anschlie\u00dfend decodierten sie jede Audiodatei mit dem Open-Source-Kaldi-Toolkit zur Spracherkennung und extrahierten die Ausgabe eines tiefen neuronalen Netzwerks (DNN).<\/p>\n<p>Nachdem sie bestimmte DNN-Ausgaben identifiziert hatten, die den gew\u00fcnschten Befehl repr\u00e4sentieren, manipulierten sie das Lied und das Kommando-Audio mit Hilfe der Gradienten-Abstiegsmethode, einem Algorithmus zur Optimierung des maschinellen Lernens. Im Wesentlichen nutzten sie ihr Wissen \u00fcber die Art und Weise, wie die Audiodaten verarbeitet werden, um sicherzustellen, dass das Spracherkennungssystem den Befehl innerhalb der Musik h\u00f6ren w\u00fcrde. <\/p>\n<h2>Kontradiktorische Audio-Songs<\/h2>\n<p>Das Ergebnis sind kontradiktorische Audio-Songs, die einen Befehl enthalten, der mit Kaldi-Code interpretierbar ist, aber von einem menschlichen Zuh\u00f6rer kaum wahrgenommen wird. Der ver\u00e4nderte Ton mag f\u00fcr den Zuh\u00f6rer wahrnehmbar sein, aber es ist zweifelhaft, dass der hinzugef\u00fcgte Ton als etwas anderes als eine Verzerrung erkannt wird.<\/p>\n<p>Die Forscher testeten eine Vielzahl von In-Song-Befehlen, die direkt an Kaldi als Audio-Aufnahmen geliefert wurden. Darunter waren Anweisungen wie z.B. \"Okay Google, read mail\" und \"Echo, open the front door\". Die Erfolgsquote lag bei 100 Prozent. Getestet wurden auch akustisch \u00fcbermittelte In-Song-Befehle, bei denen Umgebungsger\u00e4usche die Erkennung behindern k\u00f6nnen, darunter \"Echo, ask Capital One to make a credit card payment\" und \"Okay Google, call one one one zero one one one one one one one one nine one one two two zero\". Bei den Tests variierten die Erfolgsquoten zwischen 60 Prozent und 94 Prozent.<\/p>\n<p>Auf <a href=\"https:\/\/sites.google.com\/site\/song2comdemo\/\" target=\"_blank\">dieser Webseite<\/a> lassen sich Probe-Audioaufnahmen abrufen. Ich habe die Beispiele mal unter Android getestet. Zumindest in der deutschen Android-Version bewirkten die Befehle keine Aktion. Die Aktion zeigt aber, auf welch hei\u00dfes Pflaster sich die Leute mit Amazon Echo &amp; Co. begeben. <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Sprachassistenten wie Amazons Alexa, Apples Siri oder Googles Google Now sind ja extrem beliebt. Aber die Ger\u00e4te stellen auch eine reale Gefahr dar \u2013 Forscher haben jetzt gezeigt, wie man durch in Audiodateien eingestreute Sprachbefehle die Sprachassistenten \u00fcbert\u00f6lpeln kann.<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[426],"tags":[4328,5148],"class_list":["post-200523","post","type-post","status-publish","format-standard","hentry","category-sicherheit","tag-sicherheit","tag-sprachassistenten"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/200523","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=200523"}],"version-history":[{"count":0,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/200523\/revisions"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=200523"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=200523"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=200523"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}