【案例】 对话长虹康路&王昆:电视和片源分辨率存鸿沟,语音多模态或成电视交互未来 AI赋能电视,不同厂商为何会选择不同路径?在当前智能家居企业大模型备案热潮之下,如何解读其中的利与弊?大模型赋能电视,又存在哪些行业痛点等待解决?未来的AI电视有哪些趋势?搜狐财经独家对话长虹智慧显示(中国)公司长虹云帆AI平台负责人康路以及长虹人工智能实验室资深技术专家王昆,试图解答AI电视发展中的优势与痛点。王昆表示,不同企业在设计AI电视时形成的不同路径,与其产业优势有关,从而导致有些企业将重心放在交互等“前台”,而有些企业则将重心放在芯片等“后台”。康路和王昆均表示,大模型的安全性、幻觉等问题是大模型在电视领域使用的最大痛点之一。谈及未来AI电视发展,康路认为,“未来针对电视交互,一定是以多模态交互为主,然后在多模态中又会是以语音交互为主。” 谈电视的AI赋能差异化 产业优势决定路径选择 搜狐财经:目前家电行业,尤其是电视的AI功能发展呈现出不同的特点,比如有一些企业会更强调在语音大模型方面做尝试,也会有一些企业在画质等不易被察觉的后端做一些努力,您认为造成家电企业AI差异化发展的原因是什么?王昆:原因是多方面的,首先肯定与企业的技术积累和定位有关,比如有些企业在语音交互方面有优势,有些企业有自研芯片等——高画质需要用到AI算法,就因此需要芯片支持,所以如果有芯片积累就会在这方面做得比较好。 搜狐财经:您觉得是企业根据自身产业优势选择了不同的路径?芯片如何去用AI的方式影响画质? 王昆:对,我觉得这是一个方面。现在电视有4K、8K,电视分辨率很高,但片源分辨率不够。一方面高清片源不够,另一方面带宽也未必能支持,这里面存在一个Gap:电视能播8K画质的片源,但部分片源只有2k,这时候2k的图像显示在8k屏幕上会把图像进行缩放,缩放后会变得不清晰。这时通常做法是超分辨,把低分辨率变为高分辨率,这时会涉及到一些AI算法,就是在超分的时候补细节,目前主要依赖深度学习来做,这就依赖于芯片的强大AI算力。而且超分对实时性要求很高,现在至少是1秒钟60幅画面,所以对芯片处理速度有很高的要求,需要用专用芯片,比如AI专用芯片等,因此,有些芯片在这方面擅长或者有所积累会侧重于这方面。 搜狐财经:您提到的电视上这种使用AI芯片优化画面,和一些投影仪厂商使用的“抖动4k”等技术有共通性吗? 王昆:如果把2k变成4k,最简单的做法是“复制”,从1个点变成2个点,但这样复制起来看起来是模糊的。如果加入AI算法,这种变化就不是线性的,而是非线性变化,变大后图像看起来依然很自然,和“抖动4K”的技术不一样。 搜狐财经:今年以来,不少家电家居企业都备案了大模型,长虹此前也发布了自己的大模型产品,今年也做了迭代,基于外界对这款产品的认知可能还不够,想请您介绍一下长虹云帆大模型的特点和落地情况。 康路:长虹在去年8 月份就推出了长虹基于电视端应用的一个大模型,全称“长虹云帆AI大模型”,也是长虹最先在电视上落地。结合电视实际应用场景来说具备五大基础能力:多维感知、多重理解、多任务管理、动态交互和内容联想。本质上就是这几大能力都在为电视交互和内容服务,我们希望让电视使用变得更轻松、更简单。长虹云帆AI大模型主要围绕交互和内容,目前已经在长虹日前发布的AI TV新品上获得了全面应用落地。去年我们先发了大模型,然后逐步开始尝试和探索在电视上的应用,今年大模型在电视上的应用正在逐步铺开。从交互层面来说,用户控制电视最便捷的方式就是语音交互。我们的大模型现在也有应用在语音交互上,电视变得越来越聪明,用户不需要像以前繁琐的去找内容,操控步骤变得越来越简单。此外,电视还具备可成长性,随着用户和电视的交流越来越多,电视能知道你的一些喜好甚至能进一步预测用户行为。比如说用户喜欢看哪个类型的电影,它可以自动为用户来做推荐。从应用层面来看,大模型是基于上亿级别的数据训练而来,它具备了非常庞大的知识库,和以前电视上几十万、几百万数据量的小模型对比完全不止一个数量级的提升。大模型在具备了这样一个丰富知识之后,用户在电视使用上对内容的查找上变得更加丰富,不管是用户问电视什么问题都能回答。比如今年我们在家庭健康领域上做出了突破,依赖于大模型在医疗领域的专业知识能力,用户可以在电视上做一些健康知识问答以及自身症状的查询和用药建议。 搜狐财经:针对内容联想和交互,您可以再介绍一下吗?康路:从内容联想来看,用户以前在电视上要点播一个电影,用户说出电影名之后,比如说“我想看《觉醒年代》”,电视为用户反馈的结果就是一张海报以及一段话简介,或者说进一步会为用户提供主演信息。基于大模型庞大知识库引入之后,我们现在可以实现更多关于电影、电视剧周边信息的关联。比如当用户检索《觉醒年代》的时候,电视不仅仅能给出用户文字版点评,还可以给出这部电影里面所有高光时刻的剧情,方便用户提前了解。除此之外,大模型还可以关联这部电影里面提到的取景地、原著小说,并进一步推荐基于原著小说作者的其他作品,进行进一步内容关联。 搜狐财经:这样可以进一步延长用户使用时间,从而进一步提高用户粘性。 康路:是的,同时也为用户提供了更多的服务。用户不仅仅可以观影,甚至也可以转去看小说、听歌、看旅游攻略。 谈大模型备案热潮 内卷才能“卷”出更好的产品 搜狐财经:您怎么看待当前家电AI大模型备案热潮? 康路:就备案这个本身的行为来说是国家政策。其次,大模型出现之前,智能终端单品已经蓬勃发展,大模型的引入对智能单品带来颠覆式改变,所以不仅仅是家电,智能终端从业者都达成共识,把大模型引入自己的产品。所以整个行业呈现这种热潮,本身也是非常积极的信号,代表大家都第一时间看到了这样的一个趋势,对行业来说是一个非常好的促进,对于我们广大的消费者来说好处也是显而易见的。 搜狐财经:不过有些智能硬件厂商是使用第三方开源大模型? 康路:基础大模型背后需要非常庞大的数据参数量,以及非常庞大的计算资源——GPU服务器资源。凡是去训练这样一个通用大模型,它的投入大概都是在百亿、千亿级别,所以它不适用于这个行业内所有厂商。像智能终端的制造企业,短期之内我们看到大家的做法更多是基于一些开源大模型,在此基础上结合自身数据情况来做微调,而不是自己从头去开发。还有稍微保守一些的做法,就是直接把第三方大模型拿来为我所用,通过在产品场景上为产品带来正面能力提升,中间如果需要进一步调化,可以再去做一些微调。 搜狐财经:怎么理解“场景上为产品带来正面提升”? 康路:用户要用语音和电视对话,诉求是看电影、听音乐、刷短视频、和电视聊天、查询天气、附近美食、购物信息等等,其中和电视聊天这种功能本质也是大模型的能力,那么大模型的生成式能力就是可以直接拿过来应用的部分,它其实不需要智能终端厂商去做同样的大模型,直接利用行业主流大模型能力就可以实现(这一功能)。这就是我刚才提到可以实现快速能力提升。但再进一步,如果用户需要利用大模型在电视搜索某些影片,那就不是目前行业通用大模型能做到的,因为各家厂商的内容不同,此时就需要厂家做定制,这也需要一些投入。更进一步,输入指令后需要让电视了解你的意图,这也是行业中近年来一个热门技术方向,就是怎样让人工智能机器人更好理解用户意图、指令。在大模型出来之前,各个厂家的通用的做法是基于传统语义理解算法模型来做,这种做法机器理解能力有限,以前的电视语音交互有可能很多时候就会告诉用户“对不起,我不知道”,或者直接答非所问。大模型出现后,基于大量数据训练,它的理解能力呈现几何倍数提升,最直接的表现就是用户说不管怎么说,大模型几乎80%-90%都能“听得懂”。这部分内容电视品牌基于自己的数据库进行训练,或者复用第三方模型都可以。 搜狐财经:备案热潮会不会导致内卷加剧? 康路:据我了解,目前其实是市面上所有电视厂家都已接入了大模型,本质上对行业发展来说还是积极的,因为“卷”才能“卷”出更好的产品,所以对广大的消费者来说是好事。 谈大模型赋能电视痛点 安全性和幻觉 搜狐财经:从备案到落地的难点和痛点是什么? 康路:大模型具有生成内容不可控性,它生成的内容每次都不一样,如果在大模型训练过程中没有严加管控,它可能会生成一些不当言论,所以必须要做备案。长虹是最早开始响应国家这一政策并投入到备案中(的企业),在这一过程中我们也遇到了一些困难,主要表现是基于大模型的庞大参数量的测试难度。以前的模型有可能只是几万或者几十万参数量,测试相对简单,现在我们在做备案过程中,需要进行海量测试,动辄就是上万的测试规模,对于长虹来说,由于以前更多靠人工编辑,这对我们来说在备案初期也有一定困难和阻碍。后续长虹投入庞大资源逐步扩充这部分数据,对大模型进行充分测试和整改,从而通过了国家备案,长虹云帆也是四川省首家通过备案的大模型。 搜狐财经:从开始到落地的周期大概多久? 康路:长虹是从去年9月开始提交备案,今年3月初拿到正式备案号。 搜狐财经:所以大模型幻觉是目前最大的一个痛点?长虹在这方面有什么方法论分享? 康路:嗯,可以说是最大的痛点。因为幻觉问题其实本质上就是准确性问题,当然幻觉问题也要放在不同的应用场景去看,比如说只是和人工智能进行闲聊,它生成了不准确的言论,比如我问一些无关痛痒的信息,回答错了可能也不打紧;但是如果它是应用在教育领域,如果生成了“1+2=4”,那就是“误人子弟”,这种就比较灾难性了。所以这种准确性在某个领域上面,幻觉问题确实是最大的痛点,但是在有的领域上面也并不完全是,而且它也不完全就是能影响到用户的一个最大痛点。 王昆:我还是比较认同,安全性应该是最大的痛点之一。因为目前电话手表等智能终端产品也出现了一些问题,直接影响了公司形象。电视受众会更多,如果出现类似问题影响也蛮大的。此外,还有一个痛点是虽然电视有了AI加持,但核心价值还不是特别突出,现在AI在电视中主要还是功能辅助,比如通过AI优化后,和电视的对话更流畅了。但“杀手级”应用、质的变化还没有出现,就是用户能通过电视干更多“超乎想象”的事情。 康路:大模型的幻觉问题是现在整个行业的一个通病,虽然说Chatgpt很领先,但是其实GPT都不能完全避免一些幻觉问题,所以目前从行业技术层面来说,现在暂时没有“完美的”解决办法。针对这一层面,长虹从应用层面结合实际的场景来做了一些技术架构,通过技术架构层面做一些处理。长虹从去年大模型发布之初,我们就发布了这样一个架构,就是常用的云帆大模型。它其实不是一个大模型,而是由多个大模型构成,由行业通用大模型+各个领域专业大模型+长虹自身原有的一些小模型,共同组合训练而成长虹云帆AI大模型,它的目的在于根据不同的场景来应用不同的大模型。就像前面提到的,比如在教育、医疗等问题上出现问题,推荐用户乱用药,那不仅是品牌问题,可能还要背负法律责任,这时通用大模型就无法使用,需要应用专业大模型,比如医疗大模型、教育大模型等。 谈未来趋势 语音多模态交互或成电视交互的未来 搜狐财经:从组织架构角度来看,长虹不同产品线和AI的协同有什么方法论分享? 王昆:长虹成立了一个集团层面的AI实验室,负责协同和配合环节调动。目前除了电视领域的云帆AI大模型外,还发布了长虹美菱智汇家AI大模型,赋能冰箱、空调等更多家电。 搜狐财经:此前的电视的语音交互较为简单,现在更加多元,您认为近年来电视新品的发展趋势朝向哪些层面发展? 康路:电视交互最传统就是遥控器,但遥控器有很多弊端,也一直是电视使用一个痛点,但2015年以前,遥控器的交互是能满足用户需求的,因为此时电视内容非常简单。随着互联网的兴起,各个电视厂家把互联网信息引入到电视上,电视内容成井喷式发展,此时用户再想通过遥控器去找电视内容就会显得非常吃力,而且用户的交互体验也非常不好。在2010年以后,随着人工智能技术的发展,深度网络神经算法的成熟,语音识别能力获得了长足进步,识别率从最早70%增至99%,长虹也是行业率先将云技术引入到电视上,为电视交互体验实现了非常大价值。从2015年至今,我们认为电视最便捷、最主要的交互手段就是语音。哪怕在未来几年之内,它的交互手段依然是语音为主,在此基础上,从2019年至今发展出多模态交互,在遥控器和语音基础上还扩展了触摸交互、隔空交互和基于图像识别的手势交互。这些都是语音交互的有益补充,但仍然没有取代语音为主导的交互地位。所以,我们也认为,未来针对电视交互,一定是以多模态交互为主,然后在多模态中又会是以语音交互为主。 搜狐财经:您觉得未来家电AI化会朝向什么方向去走? 王昆:在家居环境下肯定会朝着全屋智能协同方向去走。现在单品智能做得比较强,比如电视、空调、冰箱需要一个一个去控制。未来的话,可能会更协同,比如说统一指令,出现一个家庭控制中枢等等。 搜狐财经:现在可以通过手机去控制,AI如何赋能全屋智能? 王昆:手机主要通过APP操作,虽然在技术层面打通了,但在家居场景下,还不是最自然的方式,可能在家中需要像家庭成员一样的交互会更好点。 搜狐财经:您前面提到当下智能单品很强势了,但其实当下不同智能家居品牌的互联互通还是存在隔阂,未来会怎么打通和拉齐这些问题? 王昆:我觉得一方面需求越来越迫切的时候政策层面可能会有些引导,比如说公共协议;另外,一些智能厂商的生态可能会越来越强,而且现在各厂商生态也并非完全隔离,可以互联互通,比如通过云端协议进行协同,目前应该是一个不断往前推进的过程。 搜狐财经:您预测会有一个落地时间表吗? 王昆:这一块感觉之前可能会觉得过之为早,但是现在他们已经开始有相关案例,就是大家可以通过云端互联互控,不像之前一样大家都封闭。具体时间不太好说,但随着大模型的使用,大家把大模型作为家庭成员,就不需要再单独控制冰箱、电视,而是控制一个家庭助手,这时候需求会很强烈,进而影响企业之间互相打通。
来源:搜狐财经(公众号) 编辑:王晨雅
|