今天,我为大家分享几组近期发布的AI工具。

  1. Ani portrait

该项目由腾讯推出,可以根据音频和图像生成会唱歌的动态视频。例如,用户可以提供音频文件和一张参考图,Ani Portrait会根据音频的节奏,完成口型匹配,生成富有表情的语音和演唱动画,通过分析参考视频中的面部表情和动作,Ani portrait还可以在另外一张图像上,应用相同的表情和动作。这项技术可以用于创造逼真的虚拟角色,复现参考视频中人物的表情和动作。目前,该项目的模型权重已经开放下载,感兴趣的同学可以尝试。

2. Avatar in motion

本周数字人平台HeyGen推出了Avatar in motion 1.0功能。Avatar in motion也被称为可移动的数字人,该功能不但具备口型同步语音克隆,还能精确模拟真人的手势和动作。Avatar in motion的使用方法非常简单,用户只需输入提示词,即可完成高质量语音播报。

根据新闻报道,HeyGen在近期获得了风险投资公司Benchmark的6000万美元融资,目前估值已达4.4亿美元。HeyGen自发布以来一直是数字人生成领域的标杆企业,Avatar in motion功能的发布意味着数字人已经越来越接近真人的播报效果。

3. Hume情感大语言模型

本周Hume发布了EmpathicVoiceInterface技术,AVI是一种基于情感大语言模型的多模态生成式AI技术。情感语言模型结合了大语言模型的语言理解能力和情感感知能力。和ChatGPT不同的是,Eve能像真人一样聊天,还能感知人们说话的细微情绪,并作出相应的回答。例如,Eve可以根据对话者的语气和表情判断人们的情绪变化,从而输出富有情感的对白。Eve可以作为人们的聊天伴侣或者作为超真实的在线客服使用。目前,Hume已经提供了在线Demo,大家可以点击链接尝试:https://demo.hume.ai/

4. MonkeyPrinterTurbo

这是一个集成了多种API的视频生成工作流,可以基于一段中文提示词,自动生成视频脚本、背景素材以及TTS语音、背景音乐和字幕的生成,最终合并为一段完整的视频。这是一个开源项目,支持Windows和Mac系统,大家可以按照步骤完成本地部署,或者访问路咖的网站免费体验一键视频生成功能:https://reccloud.cn/

分别输入中文提示词,下方可以选择视频的比例、配音员、字幕样式,设置完成后点击视频下方的生成按钮。该过程需要持续几分钟,大家可以在后台查看视频生成进度。该项目接入了免费的Pixel素材库以及微软的SRTTS,用户可以自行接入任意的大语言模型。

5. Arcades

和HeyGen等数字人平台不同的是,Arcades会和愿意共享肖像权的模特合作,然后根据客户提供的脚本,为其定制基于真人模特的数字人视频。该模式使用经过授权的真人模特形象,为客户设计多样化的视频,不但操作合规,还可以反复利用一个模特的形象,降低广告设计成本。不过根据实际体验,很多用户表示Arcades的成本过高,每生成一段视频需要花费100欧元。

6. LTX发布

和Sora一样,LTX同样选择和电影导演合作,让专业人士借助AI工具创作富有想象力的视频。作为备受关注的视频生成平台,LTX工作室在3月27日正式发布,点击网站链接可以加入等待列表。

7. Magic-Fix up

这是Adobe推出的智能图像处理项目,用户可以通过剪切、粘贴的方法完成图像的编辑。该功能可以对图像的局部区域进行智能编辑,效果非常出色。Magic fix up可以实现空间重组、修复全局光照,将编辑好的图像片段合成为新的内容。Magic fix up还能够在几秒钟内,基于参考图生成不同景深的图像。用户还可以通过笔刷,遮罩图像中的特定区域,完成重新上色。在和其他工具的对比中,Magic fix up能够生成更为真实清晰的图像,不会出现编辑过程中产生的阴影和残留。该工具的发布将会让图像编辑变得更加有趣和简单。


0 条评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注