关于小艺执行自动化任务的相关思考(构想) 您所在的位置:网站首页 如何让小艺自动解锁 关于小艺执行自动化任务的相关思考(构想)

关于小艺执行自动化任务的相关思考(构想)

2024-07-11 17:51| 来源: 网络整理| 查看: 265

前言:华为语音助手(小艺)作为手机智能助手,现在具备一定的自动化执行任务的能力,但是存在以下问题:1、仅仅能够根据有限的、已经编程好的内容进行操作2、缺乏连续化的步骤,往往只能进行一个指令,无法理解多个指令3、缺乏自适应的能力,例如“听歌”可以说成是“放一首歌”、“来首歌”、“整首歌听听”,现阶段的方案是使用人工标注来不断强化小艺的理解能力,但人工毕竟是有局限的,每个人的语言习惯都各不相同,这样所造成的智能其实并不智能。

在大模型即将到来的今天,本文试图通过一套“标注--理解--执行”的链路来全面提升小艺的智能程度,让新版小艺不止步于语言大模型,而是真正具备理解的能力。

标注部分

要想知道该怎么做,首先要知道功能在哪里。该部分构想灵感来自于通话过程中的菜单选项,通过给各个APP构建起一个菜单,将菜单内的内容与菜单标题链接起来。拿华为运动健康中记录饮食为例:要想使用该功能,需要打开华为运动健康,找到并点击饮食日记,找到饮食记录下面的四个按钮(分别是+早餐、+午餐、+晚餐、+加餐四个按钮),然后选择相应的食品进行添加。将这一路径绘制出来,就是:APP--界面--按钮--界面--按钮。当然,还可能有其他交互方式,例如文本输入上滑下滑等,额外的动作使用额外的限定词进行标注即可。

第一步,由华为牵头,让自家APP完成菜单的绘制,包括华为运动健康、华为视频、华为音乐、我的华为、会员中心、华为商场、应用商店、畅联、备忘录等等。在可以接触源码的情况下,将内容交给盘古大模型进行理解,在代码层面完成快速识别。将这些信息交给小艺,并且提供可供执行的API接口,同时将这一系列产生的代码打包成为.HAS(huawei auto script)的格式,让小艺能够理解并且顺利执行。

第二步,利用webview套件。Webview是一个系统级别的浏览器控件,如今有很多APP的界面实现方式是调用webview组件,并使用HTML代码完成的界面开发编辑。在这些APP中,理论上是可以通过查看网页代码,定位到各个功能的位置的。

在此基础之上,使用盘古大模型对代码进行理解,寻找其中可供互动的组件。在遍历APP的web代码后,自动生成 .HAS代码,完成标注工作。

第三步,使用视觉识别。视觉识别是最耗费资源,并且效果最差的。但在无法接触源码,并且APP也不是利用web组件生成的情况下,这是较为可行的方案。使用视觉识别,在打开APP后,识别并遍历APP中的选项,并且理解并标注相关信息,最终形成 .HAS文件。

当文件生成之后,将其统一放置到智慧生活--场景--发现中,同时为小艺提供相关接口,在用户试图打开APP时询问下载相关文件。

理解与执行部分

理解过程中,小艺应在用户提出相关指令后,寻找可能的功能,并向用户询问。例如想要打开微博热搜的时候,用户可能会说“打开热搜”,但并未提及是微博的热搜,此时小艺应对用户进行询问:是微博的,还是知乎或者搜狐的热搜。

当整个场景被确认后,小艺便可以开始执行步骤。在步骤执行过程中,小艺可以询问用户,是否将用户自己的语言和菜单中的功能链接起来,例如“是否将热搜默认为微博热搜”。链接完成后,小艺将相关信息进行存储,并上传到云端。

执行过程中,有些APP可能会因为更新导致界面布局发生改变,同时也可能会有功能的增减。小艺在调用 .HAS文件时如果发现无法执行的情况,需要重新对APP进行学习。因为对于用户而言,往往没有编程基础,所以整个面向用户端的学习过程需要是完全自然语言化的。假设华为运动健康的“饮食日记”功能改名为了“饮食助手”,并且在前面出现了新功能,需要向左滑动才能找到饮食助手的功能按钮。此时:1、应当加入一种检测机制,让小艺确认自己是否成功进入到了某功能,例如通过分析框架的变化来进行判断,当然也可以使用视觉判断,但要注意视觉判断不应当包含那些拥有动态信息的内容。2、检测失败后,应当与用户一起合作进行问题解决:首先自我遍历页面,重新寻找功能,如果功能找不到的话,可以邀请用户介入寻找。如果都找不到的话,那就申请在菜单栏中删除该功能,并将删除后的文件上传至智慧生活中的“发现”社群中。在社群中,如果APP中的某个变化被多名使用者上传,那么社群应采用新方案,公布新的文件供分发使用。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有