绿地MTOWN 招商中心

上海园区招商办公室

联系人:梁经理

联系电话:15000456391

欢迎来电咨询,竭诚为你服务!


自今年初以来,国内掀起了一股大语言模型的热潮,其中ChatGPT成为了备受关注的产品之一。基于大语言模型的应用也成为了行业的热点,AI大模型和数字人成为了备受追捧的方向。作为上海科技大学孵化的第一家企业,叠境数字科技(上海)有限公司早在2018年就开始计划使用AIGC和光场采集技术来推动数字人的发展

自今年初以来,国内掀起了一股大语言模型的热潮,其中Chat GPT成为了备受关注的产品之一。基于大语言模型的应用也成为了行业的热点,AI大模型和数字人成为了备受追捧的方向。

作为上海科技大学孵化的第一家企业,叠境数字科技(上海)有限公司早在2018年就开始计划使用AIGC和光场采集技术来推动数字人的发展,以使其更加逼真、更加具有交互性。

最近,张通社采访了位于张江绿地MTOWN的叠境数字公司,与数字人业务总经理李彦交流了关于叠境数字的数字人产品以及她对技术和市场的看法。

以下是采访实录,内容略有删减。

采访对象:张三(化名),一名大学生。

采访时间:2021年5月10日

采访地点:张三的宿舍

采访人:李四(化名),一名记者

李四:你好,张同学。我是来采访你的,可以问你一些问题吗?

张三:可以,没问题。

李四:你觉得大学生应该具备哪些能力?

张三:我觉得大学生应该具备一定的学习能力和实践能力。学习能力是指能够快速学习新知识和技能的能力,实践能力是指能够将所学知识应用到实践中解决问题的能力。

李四:那你觉得大学生应该如何提高这些能力呢?

张三:我觉得可以通过多读书、多实践、多交流来提高自己的学习和实践能力。同时,也可以参加一些社团和实践活动,锻炼自己的组织能力和沟通能力。

李四:你觉得大学生应该如何平衡学习和生活?

张三:我觉得可以通过制定合理的学习计划和生活计划来平衡学习和生活。比如,可以在周末的时候安排一些娱乐活动,放松自己的身心。同时,也要注意保持良好的作息习惯,保证充足的睡眠时间。

李四:谢谢你的回答,最后有什么想对其他大学生说的吗?

张三:我想说的是,大学生不仅要注重学习,还要注重实践和锻炼自己的能力。同时,也要注意保持良好的心态,积极面对生活中的挑战和困难。

绿地MTOWN 招商中心

数字化业务总经理 张宇

01

AI让数字人能“聊天”

张通社表示,叠境数字目前拥有两大业务板块,分别是城市级数字孪生和数字人。这两个板块看起来似乎有很大的差异,但实际上它们是相辅相成的。城市级数字孪生是通过数字技术将城市的各种数据进行整合和分析,以实现城市的智能化管理和优化。而数字人则是通过人工智能和机器学习等技术,为企业和个人提供智能化的服务和解决方案。这两个业务板块的发展都是叠境数字的战略方向,旨在为客户提供更加全面和高效的数字化解决方案。

叠境数字(李彦):作为上海科技大学孵化的第一家企业,叠境数字的愿景是“打造一个让每个人都能够拥有的元宇宙”。我们致力于将上科大的科研成果转化为实际的产品,为人们带来更好的体验。

尽管数字孪生和数字人业务的重点不同,前者注重快速创建大规模城市的数字底座,后者则注重形象的生动逼真和自然的交互,但它们都依赖于相同的底层技术栈:叠境数字的人工智能和光场采集技术。数字孪生业务利用了我们在人工智能技术方面的全部技术积累,主要应用于大尺度静态场域;数字人业务则利用了光场采集技术和智能视觉技术(人工智能的一个分支),主要关注数字人超写实的外形和通用的沟通理解能力。

我们坚信,数字人不应该只是一个外表美观的虚拟形象,而应该具备与人类进行对话的能力,成为更加智能化的数字伙伴。目前,我们的公司——叠境数字,已经拥有一百多项自主研发的人工智能和光场视觉知识产权,这些技术构成了我们在数字人业务领域的专业技术壁垒,使我们具备了足够的技术实力来推动数字人业务的发展。

张通社表示,叠境数字成立于2016年,从2018年开始,公司开始了数字人业务的探索和实践。在这个过程中,公司遇到了很多挑战和困难,但也取得了一些进展和成果。公司通过不断的试错和改进,逐渐建立了数字人的开发和运营体系,同时也积累了丰富的经验和技术。目前,公司的数字人业务已经逐步成熟,正在为客户提供更加优质的服务。未来,公司将继续加强数字人业务的研发和创新,为客户提供更加智能化、个性化的解决方案。

李彦的公司叠境数字一直在致力于用算法驱动数字人的发展。他们的数字人业务经历了三个阶段。在第一阶段,他们利用计算机图形学的技术能力,为一些著名艺人打造了数字分身。这些数字分身是以视频形式呈现的,并被用于歌星的演唱会现场。

在第二个阶段,我们开始与一些顶尖的视觉创意艺术家合作,共同打造原创的数字人形象。这些数字人形象的主要特点是美观和逼真,我们注重皮肤细节的表现,力求做到十分清晰。这些数字人形象曾经与许多知名的一线消费品牌合作,成为它们的品牌代言人。不过,这些数字人形象都是根据客户的需求定制的,每个数字人都有自己的脚本,因此制作成本相对较高。

在第三阶段,我们看到了Transformer神经网络模型,高性能的算力和海量的数据带来了生成式AI浪潮,并认为生成式AI与数字人结合将是一个很好的机会。有了AIGC,数字人不光是一个人形,它可以和人类进行交流,应用场景变得更多了。这是我们当下数字人业务的着力方向。

02

数字人工智能(AI)是通过一系列复杂的技术和算法来炼成的。首先,需要收集大量的数据,包括图像、语音、文本等。然后,使用机器学习算法对这些数据进行训练,以便数字人工智能能够识别和理解这些数据。接下来,需要对数字人工智能进行深度学习,以便它能够自主学习和适应新的数据。最后,需要对数字人工智能进行优化和测试,以确保它能够在各种情况下正常运行。整个过程需要大量的时间、资源和专业知识,但是最终的结果是一个能够模拟人类思维和行为的数字人工智能。

张通社是一种基于人工智能技术的数字人,其背后的技术主要包括自然语言处理、机器学习、深度学习、计算机视觉等。这些技术使得张通社能够理解和处理自然语言,具备智能问答、语音识别、语音合成等能力,同时还能够进行图像识别、图像生成等任务。除此之外,张通社还可能涉及到知识图谱、大数据分析等技术,以便更好地为用户提供个性化、精准的服务。

重新创作:

李彦提出,要打造一位AI数字人,需要运用计算机图形学技术,以高效地生成美观逼真的人物形象为目标。

其次,数字人的交互部分采用了大型语言模型和语音识别生成技术。大型语言模型可以让数字人以自然的方式回答人类的问题,而语音识别技术则可以将人类的语音转换为计算机可读的文本。具体来说,当人们说话时,语音识别技术将其转换为文本,并输入到大型语言模型中,从而生成相应的对话语句。最后,通过语音生成技术,数字人可以将这些语句以自然的语音形式表达出来。

除了数字人的互动部分,我们还使用了光场采集技术和深度神经网络,以使数字人的外貌和说话方式更加自然和真实。这种技术被称为“呼吸感”,它可以捕捉上百个人类真实的说话声音、口型和动作,并生成对应的3D模型。然后,我们将这些模型输入深度神经网络中,让AI学习人类自然的说话方式。通过这种AI学习,数字人的语音、语调和动作神态就会变得更加真实和自然。

绿地MTOWN 招商中心

光场采集现场设备

记者:AI数字人制作方面存在哪些技术难题?

张通社:目前,制作一位AI数字人遇到的最大技术挑战是如何让数字人的表现更加自然、真实。要实现这一目标,需要解决许多技术难题,比如如何让数字人的动作更加流畅自然、如何让数字人的表情更加真实细腻、如何让数字人的声音更加自然逼真等等。这些都需要我们不断地进行技术创新和突破。

数字人技术的一个主要难点是让数字人的口型与说话内容完美匹配。如果数字人的嘴型与说话内容不协调,那么数字人就会显得不真实。

为了让数字人的口型与声音更加贴合,我们采用了深度相机来捕捉数百人的口型,包括普通人和专业播音员。然后,我们将这些关于口型的3D数据输入到AI模型中。目前,我们已经取得了一定的进展,能够让中文语音和口型自然地贴合。例如,当发出拼音中的“o”音时,人类会轻微地噘起嘴巴,而我们的数字人也会显示出与人类相同的口型。

我们计划进一步改进这项技术,不仅可以捕捉说话人的口型,还可以捕捉人脸上的上百块肌肉变化。这将使数字人物呈现更加自然的说话神态,并且精度可以达到毫米级别。

03

随着人工智能技术的不断发展,数字人的应用场景也得到了拓宽。数字人是指通过计算机技术和人工智能算法生成的虚拟人物,其可以模拟人类的外貌、语言、行为等特征,具有广泛的应用前景。

数字人最初的应用场景主要是在游戏、影视等娱乐领域,用于制作虚拟角色和特效。但随着人工智能技术的不断进步,数字人的应用场景也得到了拓宽。例如,在医疗领域,数字人可以被用于模拟人体器官的结构和功能,帮助医生进行手术模拟和治疗方案制定。在教育领域,数字人可以被用于制作虚拟教师和学生,提供更加个性化的教育服务。在金融领域,数字人可以被用于客户服务和风险评估等方面。

总之,数字人的应用场景正在不断拓宽,未来还将有更多的领域可以应用数字人技术。

记者:AI数字人的应用场景有哪些呢?请您谈一下您的看法。

张通社:AI数字人的应用场景非常广泛,可以应用于各种领域。比如在医疗领域,AI数字人可以帮助医生进行诊断和治疗,提高医疗效率和准确性;在金融领域,AI数字人可以帮助银行和保险公司进行客户服务和风险评估;在教育领域,AI数字人可以帮助教师进行教学和学生管理,提高教学效果和学生学习成果。总之,AI数字人的应用场景非常广泛,未来还会有更多的领域得到应用。

李彦表示,目前他们的数字人项目已经在新闻媒体和地产园区两个领域落地。这些数字人可以为客户提供提高效率的价值。

我们与第一财经达成了合作,推出了一款数字人新闻主播——伊可。传统的新闻主播需要一个团队的支持,包括摄影师、化妆师和导播等人员。而伊可则可以独立完成这些工作。

绿地MTOWN 招商中心

数字人伊可亮相

数字人伊可是一种基于深度神经网络生成的虚拟人形象,她的声音、口型和动作都能够实时生成。我们还根据第一财经主播的外形,设计了符合主播风格的数字人形象。只需要一份文字稿件,数字人伊可就能够完成实时直播,无需其他人员参与。

此外,我们的数字化员工还可以被应用于园区企业的运营管理。这些数字化员工可以帮助企业实现员工门禁打卡、访客身份识别和接待、预定会议室等功能。

记者采访了张通社,据他透露,叠境数字正在开发一款手语大模型产品。这款产品是为了方便聋哑人士进行交流而设计的,通过手势识别技术,将手语转化为文字或语音输出。

目前,该产品的开发进度已经比较稳定,团队正在进行最后的测试和优化工作。预计在未来几个月内,这款产品将正式上市,为聋哑人士带来更加便捷的交流方式。

张通社表示,这款产品的研发过程中,叠境数字一直秉承着“科技让生活更美好”的理念,希望通过技术的力量,为更多的人带来便利和帮助。

叠境数字(李彦):这是一款专为聋哑人设计的AI大模型产品。通常情况下,聋哑人需要通过手势和口型来进行交流,但是这款产品可以帮助聋哑人与正常人进行无障碍沟通。

为了更好地满足聋哑人的交流需求,我们采集了2000至3000个常用手语字的数据,其中包括通用手语和上海地区自然手语。这些数据将有助于我们更准确地理解聋哑人之间的交流方式,并为他们提供更好的服务。

为了确保准确性,我们致力于收集各种高质量的手语数据内容。

首先,我们将前往光场采集设施,以获取大量关于口型和手势的样本。这些样本将涵盖多个年龄段,包括儿童和老年人。其次,我们还将前往社区服务中心和医院,使用相机记录聋哑人在真实情况下的手势和口型状态。

绿地MTOWN 招商中心

采集手语数据

绿地MTOWN 招商中心

手语大模型的数字人

仅仅记录常用的手语字还不足以满足聋哑人的交流需求。因此,我们的团队决定在真实语境中记录聋哑人表达完整意思的影像。我们使用深度相机,在几十个具体的交流场景中记录下聋哑人如何通过手语表达一句完整的话。这样,我们可以更好地理解聋哑人的交流方式,并为他们提供更好的支持。

通过这种方法,AI可以学习到更加连贯的语言数据,而不是零散的单词。这些数据更符合实际的交流情境。通过这些高质量的数据训练,手语模型生成的内容将更加真实和自然。

我们已经完成了数据采集,目前工作进展顺利。预计今年10月,我们将完成手语大模型的第一版本,并将其推广至城区的几个社区服务中心。明年6月,我们计划将手语大模型推广至全上海市聋哑人办事的窗口单位,以便更多的聋哑人士能够受益。

04

数字人的未来发展方向

记者张通社询问了对未来数字人赛道发展的看法。他指出,目前数字人赛道非常热闹,包括围绕IP重运营的虚拟偶像、中之人的虚拟主播以及使用AI驱动的服务型数字人等。他询问对未来数字人赛道的发展有何看法。

李彦认为,未来会出现各种各样的数字人,以满足不同场景和需求的需求。虽然数字人不会取代人类,但是它们的数量可能会超过人类。随着技术的不断进步,数字人的制作成本将会不断降低,功能也会更加强大。这些数字人将会像NPC一样生活在我们周围。

我认为,服务型数字人的发展可以体现出数字化服务的平等化。以往,只有少数人能够享受到高端服务,而现在,通过数字人的服务,每个人都可以获得同等的待遇。数字人的出现,让高端服务不再是少数人的专属,而是变成了每个人都可以享受的服务。因此,数字人的发展可以促进服务的平等化,让更多的人受益于数字化服务的发展。

数字人在不同服务对象中的应用也有所不同。在To B场景中,数字人能够为企业提高效率,一个数字人就能完成原本需要一群人去做的事情。而在To C场景中,数字人则可以提供陪伴价值,比如陪伴着说话、讲故事等。对于一些特殊群体,这些数字人还可以为他们获取原本难以获取的信息,比如为老人阐述养老金等扶助政策。

记者问道:“有些人对数字人技术仍然持怀疑态度,认为数字人不够真实,您对此有何看法?”

张通社回答道:“尽管数字人技术已经不断演进,但仍有一些人对其持怀疑态度。他们认为数字人不够真实。我认为这是可以理解的,因为数字人技术毕竟还处于发展初期,还有很多需要改进的地方。但是,随着技术的不断进步,数字人的真实感将会越来越高,相信未来会有更多的人接受和认可数字人技术。”

重新创作:

李彦认为,数字人技术会随着时间的推移不断自我更新,变得越来越先进。只要我们不断地运用它,数字人技术就会不断进步。

目前数字人的真实度还不够高,主要是因为技术上还存在瓶颈需要克服。曾经有一位客户抱怨说,他购买的数字人只是一个虚假的模特,买回来后就被闲置了。但是随着生成式AI技术的发展,今年这位客户又重新找回了数字人,因为他认为现在的数字人已经可以和人类进行交互,变得更加实用了。

举个例子,以前制作数字人需要耗费大量的GPU资源来渲染其精美外观。但是,随着技术的不断进步,数字人企业发现他们对GPU的依赖正在逐渐降低,而且越来越多性价比高的GPU也在涌现,这将会使得数字人的制作成本不断降低。

我认为技术的发展是一个不断上升的过程,就像螺旋一样。随着时间的推移,数字人的技术将会不断提升,他们将更加接近真人,拥有更加真实的感觉。这将会吸引更多的人与数字人进行交互。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 792114587@qq.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.yuxke.com/16933.html