智能音箱,你在“窃听”我吗?

pmawg · 发表于 2019-8-16 16:57:03

　　逐渐地，司兰对这个智能音箱产生了好感。“简直是哄娃神器”，欣喜之余，她开始在淘宝上浏览相关

产品，计划买一台配置更高、音质更好的款式。

　　直到数月前的一天，司兰无意间打开了与智能音箱连接的手机App，却意外发现，其中记录的一段文字，正是自己与丈夫刚刚聊天内容的文字转写。令她惊讶的是，这段对话发生在女儿听完故事之后，理论上，音箱已经处于休眠状态，不应收取声音，更不应该将内容传输至手机、并转为文字。

　　“它一直在偷听我们家里的谈话吗？”疑虑浮现在司兰的心头。家人也对智能音箱产生了忌惮，新机购买计划自然搁浅，对于已有的这台音箱，司兰则选择了“断电”，“女儿喜欢听故事，听的时候开一会，听完就拔电源”。最近四、五个月，他们都是这样使用的。

　　正在“监听”的音箱

　　智能音箱第一起广为人知的“窃听事件”发生于美国俄勒冈州。

　　2018年5月，Danielle的丈夫接到一位下属的电话：“马上拔掉你的Echo设备插头，你被黑客攻击了！”Danielle居住在俄勒冈州波特兰市，家中拥有四台亚马逊智能音箱Echo设备。当天早些时候，她丈夫的这位下属接到一份录音文档，随手打开后，却听到了Danielle和丈夫在家中的私密谈话，夫妻俩正在商量使用哪个牌子的硬木地板。

　　震惊之下，Danielle拔掉了所有Echo设备电源，迅速拨打亚马逊客服电话寻求解释，同时，她将这一事件爆料给哥伦比亚广播公司。

　　对于这一事故，亚马逊给出的回复是“误操作”，意思是，在运行时，Echo设备将一段对话的内容误解为指令，以为用户希望将此前的语音内容发送给通讯录中的某个人，随即执行了这一指令。

　　Echo是亚马逊推出的智能音箱，搭载其语音助手Alexa。截至2018年年中，Echo在美累计出货约3500万台；根据CIRP预测，其市占率达到70%，远超其它品牌。

　　头部产品出事，消息迅速被广泛传播和发酵。不久之后，Echo的第二起“事故”又出现了。一位德国用户向当地杂志《c’t》爆料，当他让亚马逊发给自己个人活动的语音数据时，却收到了一个可供下载的100MB压缩文件，下载内容是一份解释Alexa语音命令的PDF分类记录，以及1700份陌生人对话录音。

　　《c‘t》听取了其中的部分录音，发现根据对话内容，可以“拼凑”出的生活细节包括：在家和外出的时间，家里其它品牌的智能设备，家中人员的性别，甚至包括用户沐浴的声音。

　　尽管亚马逊对以上两起事故均已致歉，却未能掩盖一个在舆论中逐渐成型的猜测：作为一款新兴设备，智能音箱的“窃听”或许不仅是隐患、而且真实存在。“它听到唤醒词就可以启动工作，那是否意味着，智能音箱正在随时随地听取我们的谈话？”司兰这样怀疑。

　　最近数月中，智能设备相关的更多“窃听”事故正在被曝出。今年7月，据国外媒体报道，苹果的一名承包商称，为了提升Siri的产品能力，苹果会雇佣外部承包商审听录音，其中包括了Siri在意外被激活时收录的私密对话，例如医疗信息、毒品交易和其它信息。

　　无独有偶，同月，有消息传出，谷歌智能助手会将录下的声音文件提供给公司员工，甚至世界各地的谷歌第三方承包商也能定期听取这些谈话内容。

　　对于智能音箱及内置于各设备中的语音助手的疑虑正在蔓延，不仅是“窃听”，智能音箱偶尔出现的自启动现象也刺激了一部分用户。从去年起，先后有用户表示，Echo在未被唤醒时，却出现了“呵呵”的笑声，令人毛骨悚然。

　　类似现象也出现在一些国内的智能音箱上。一位用户透露说，家中摆放的智能音箱多次突然汇报“设备正在进行系统升级，已更新**个应用”，“虽说很正常的内容，但家里没其他人，音箱突然说话，每次都吓我一跳。”甚至有一次，在她邀请朋友到家中做客，彼此相谈甚欢时，智能音箱突然被唤醒了，并毫无预兆地为众人播放了一首林俊杰的《杀手》。

　　“带屏”音箱则带来了影像方面的疑虑，随着“窃听事故”增多，有用户怀疑称，自家的带屏音箱有“回家看看”的功能，既然可以远程直播家里正在进行的情景，是否也会同时将这些影像记录下来，传输至其它地方？

　　人们对智能音箱这款新产品的疑惑越来越多。从“它在监听我吗”延伸至：它休眠时会收声吗？收声之后，是否会存储和传输这些对话？这些声音真的会被人听到吗？以及，它会被黑客攻击，变成一个“窃听器”吗？

　　谣传与真相

　　“最近一年，身边很多朋友买智能音箱前，都会来问我监听问题”，张思成说。他先后在多家公司的智能音箱部门工作，被朋友们视为行业专家。“比较有趣的是，问完之后，几乎每个人都还是买了音箱。”

　　据张思成及多位熟悉智能音箱的从业者介绍，智能音箱的识别工作分为“本地”和“云端”两种情况，在智能音箱处于未唤醒状态时，为本地工作状态，虽然会收录外界声音，但不会对这些声音进行存储与语义识别。“唤醒前相当于在做声波识别的工作，”徐家明介绍说，“（智能音箱）将收录的声音与唤醒词做对比，声波相符时，才会自动打开。”徐家明是一位智能音箱产品经理。

　　张思成否认了“偷偷监听”的传言，据他了解，市场主流的多款国产智能音箱无一存在主观故意监听的情况。

　　“这是一件成本很高的事情”，张思成认为。他这样算了一笔账：假设一家企业累计售出100万台音箱，有20万日活，如果企业要启动这些音箱做24小时监听，就算每秒钟产生100k数据，乘以20万的话，累计起来传输带宽、存储和计算的花费相当惊人。

　　更关键的是，在当前的技术处理能力下，企业尚不能将这些庞大而又碎片化的录音转化为有商业价值的有效信息。在张思成看来，就算不考虑道德层面，只看商业利益，企业也没有动机去做主观的信息收集。

　　据张思成回忆，在去年的一项由国家工信部主导的智能音箱检测工作中，在未唤醒状态下，各家智能音箱传输的数据量均仅为KB级别，对于语音资料而言，这一数据量几乎可以忽略不计。

　　与“窃听”传言较为相符的内容是“唤醒词”之后的智能音箱工作模式。

　　张思成和徐家明均承认，音箱被唤醒后，将进入云端工作状态，将收取的声音传输至云端服务器，完成语音语义识别和反馈工作。“这是无法避免的，”张思成有些无奈，他提到，目前智能音箱内置的运算能力，无法支撑AI类的语音语义计算，更无法在本地实现识别能力的提升。

　　为了避免网络故障和隐私问题，在一些客户定制的全屋智能中，张思成的公司曾提供过仅在本地运算的语音方案。不过，这将使功能性变得非常单一，仅支持固定命令，例如，主人回家后，可告诉语音助手“打开灯”，但若换成“打开这盏灯”，它便无法识别。

　　按照智能音箱的产品策略，当用户结束命令，如数秒内无新声音出现，机器则会恢复休眠状态。“每家品牌设定不太一样，有的是3秒内、有的是5秒内，”徐家明透露。然而，在实际工作中，由于智能音箱整体成熟度有限，“唤醒”和“休眠”均有可能出现误差。“例如刚好有声音和唤醒词相似，或者命令结束后有其他声响，使智能音箱以为需要继续工作，它就会持续收音，而用户对此是不知道的。”据他推测，包括司兰在内，众多用户遭遇的所谓“窃听事件”，均源于这类原因。

　　据多位从业者介绍，目前智能音箱行业内较理想的“误唤醒率”约为每48小时2次，更糟糕的情况则达到每24小时2-3次，这无疑意味着误操作下较高的所谓“窃听”频率。“对于各家品牌来说，当下最关键的都是提高AI能力，减少误操作，收集来的语料是最好的训练素材。”徐家明提到。

　　今年4月，彭博社的调查报道显示，亚马逊在全球有数千名工作人员负责人工听取和检查用户与Alexa的对话，并对这些录音进行标注、检查、反馈，以降低误操作，帮助Alexa更好地响应指令。位于罗马里亚的两名亚马逊员工提到，他们一天需要工作9小时，解析音频多达1000条。

　　“这在行业中其实不是秘密，”张思成认为，不仅是国外品牌，在国内几家主流智能音箱品牌中，均有“人工审听”环节。为尽量保护用户隐私，录音在被人工听取前会进行数据脱敏、打散，尽管员工会听到录音对话，甚至涉及私密事务，但并不能识别用户的具体身份。“在云端过程中，音频文件本身不会跟用户账号信息、设备信息相对应，主要是为了优化指令。”国内一家主流智能音箱厂商回应表示。

　　“被人工审听的语料不足总量的1%，主要集中在识别困难的内容上，比如，当音箱回答‘我不懂你在说什么’，这句之前的内容，会优先选择为人工审听，”张思成解释说。在他此前任职的公司中，当某些新功能上线时，为提高其准确率，某些特定语料的审听比例会提升至10%左右；不过，这类工作的持续时间很短，往往“用几天时间攻关后，就恢复正常比例了”。徐家明同样认为，随着AI模型识别能力的提高，企业采用人工审听的比例或将会有所降低。

　　智能音箱所录取的语料不会被永久存储，前述音箱厂商称，在完成识别后，音频文件会被删除。“每一家保留文件的时间不等，我们这边大概是几个月。”徐家明补充说。

　　无所遁形

　　无疑，智能音箱和其它语音助手类产品，尚且不是一个成熟品类。

　　这使此类产品存在诸多漏洞，例如误唤醒，再例如“黑客攻击”。去年8月，在美国拉斯维加斯举行的全球黑客大会Defcon大会上，腾讯安全团队仅用26秒便成功破解了亚马逊的Echo，远程控制指定设备，使该设备在未唤醒、不提示的静默状态下自动录音，并将录音文件通过网络发送给远程服务器。

　　“当2300台音箱中，有1台智能音箱被物理攻击，其他的智能音箱都可以通过局域网内的非接触式攻击被黑客置入后门，成为黑客的远程窃听器。”在破解时间后不久，腾讯安全专家伍惠宇在一场演讲中表示。当然，在腾讯将这些漏洞提交后，亚马逊已经完成了这部分的修复和更新。

　　在另一层面上，正是兴起时间短、成熟度低，迄今为止，智能音箱尚未形成任何黑灰产业链。录音语料在企业被赋予相当严格的保密级别，张思成透露说，在他所任职的公司，涉及录音的工作均会在公司内完成，虽因人员有限，将部分保密级别较低的识别工作外包，也会要求外包人员来到公司完成识别工作。

　　“在国内市场上，还没有听说任何一家企业将语料转卖的情况，没有听到过成功窃听的案例，同样，据我所知，智能音箱还不会利用收听到的语料，为每一位用户形成全景画像。”张思成肯定地说，“说到底，现在智能音箱还笨得要死，提取有效信息成本太高，我个人觉得，在未来3到5年内，都不用担心音箱带来的隐私问题。”

　　但他也和其他从业者一样，并不否认以上种种“尚未发生”的情况，会在技术更为成熟的未来均有“发生”的可能。

　　作为这个新兴行业的从业者，张思成已经可以坦然接受技术与隐私难以平衡的问题，“在物联网、AI时代，我们是没有隐私、无所遁形的”，即便没有智能音箱，通过手机和电脑，每个人的信息、喜好、习惯等种种信息，早已被各家公司所掌握，本质上，这并无不同。

　　除非在计算能力更为强大的未来，全部智能产品均在本地运算，全部断网，只有偶尔更新系统时联网。张思成认为，这但对普通人而言，这种高技术难度、低商业价值的设想过于遥远，也过于不切实际。

　　面对这些焦虑，一些人选择了远离智能音箱。一位技术人员称，其已经将家中智能音箱彻底断电，亦不再有购买其它智能家居的计划；而张思成已经默默接受，他购买了三、四台智能音箱放置于家中，本来是用于工作测试，后来也就习惯了它们的存在。

　　在技术探测隐私的边缘，张思成的底线是“不形成危害”。他将智能音箱置于客厅和门厅，这样，即使一些语音资料被泄露，也不会对他与家人形成实质危害，“智能音箱的收声范围大约是3到5米，很难隔墙收集，卧室基本听不到，实在有私密话题的时候，也可以拔掉电源再讲”。

　　他不能接受的是影像泄露，“我绝不会买一台带摄像头的音箱、或者其它带摄像头的产品放置在卧室”，他很清晰地认识到，一旦泄露影像，将是难以挽回的重大危害：不止一位从业者透露，联网的摄像头设备，的确会将影像回传至服务器，这些资料会被严格保密，但仍存在理论上的外泄风险。

　　你无法隐藏自己，所以，只能采用最基本的方法来保护自己——这是张思成的理论。

　　不过，有些人也抱有更乐观的态度，“智能音箱正处于野蛮生长的初级阶段，扩展到整个智能家居，都会经历这些初级阶段，这时的隐私保护，只能依赖于厂家自律，”徐家明坚信，“当这些产品彻底普及之后，一定会有更高级别的隐私规范出现，统一行业、限制权限，并作为强制标准来执行。”

　　注：文中司兰、张思成、徐家明均为化名

　　（文章来源：全天候科技）

智能音箱,你在“窃听”我吗?

精选推荐