你若是听了我与ChatGPT之间的对话,将会有两种反应:
1)我的天哪!这就是科幻作家向我们描绘的人与电脑交流的未来。
2)我要造一个地下掩体,储备厕纸和燕麦棒。
是的,OpenAI开发的广受追捧的聊天机器人ChatGPT开始说话了,是真的说出声来。OpenAI周一发布了ChatGPT的iOS和Android应用的更新,能够让这个人工智能机器人用五种不同的声音说话。在过去几天里,我与ChatGPT进行了多次交谈,并测试了另一个新功能,它可以让ChatGPT对你给它的图片作出回应。
现在的ChatGPT什么样?
想想Siri或Alexa,除了……不对。ChatGPT那自然的声音、对话的语气和洋洋洒洒的回答有时候几乎与人类无异。还记得电影《她》(Her)吗?影片中杰昆·菲尼克斯(Joaquin Phoenix)饰演的男主爱上了一个AI操作系统,而给这个操作系统配音的其实是未露脸的斯嘉丽·约翰逊(Scarlett Johansson)?我想表达的就是这样一种氛围感。
“不仅仅是因为打字麻烦,”OpenAI的产品负责人Joanne Jang在一次采访中对我表示,“你现在能与ChatGPT进行互动交谈了。”
新的图像识别功能还使该聊天机器人具有更强的互动性。你可以抓拍一张照片,然后向ChatGPT提问。剧透:它玩井字棋很差劲。图像和语音功能将在未来几周内开放给那些每月花20美元订阅ChatGPT Plus的用户。
从本质上讲,OpenAI正在为其聊天机器人配备嘴巴和眼睛。我在一系列场景中测试了这两项功能,包括好友间的聊天、管道维修和玩游戏。这一切都非常酷,却又……令人不寒而栗。
OpenAI的ChatGPT现在有了语音,使其更像其他人工智能助手。图片来源:PHOTO ILLUSTRATION BY THE WALL STREET JOURNAL
嘴巴在我们继续之前,请调大音量,听听我们的简短对话:
虽然系统只是在读出ChatGPT提供的文本回复,但这并不是我们熟悉的机器人式的、呆板的文本转语音的系统。
ChatGPT提供了五种声音选择,每种声音听起来都像是真人在跟你说话
——抑扬顿挫、有腔有调、个性鲜明。
Jang告诉我,这些声音是基于专业配音演员提供的“仅仅几秒钟的语音样本”生成的。这些样本经过OpenAI计算机模型的分析处理,将文本转语音后的内容用这种声音呈现出来。还记得我用AI工具克隆自己声音的专栏和视频吗?就像那一样。但效果更好。
OpenAI表示,正与其他一些组织合作,让它们开发合成声音。该公司正与Spotify合作开发一种工具,帮助将播客主理人的声音翻译成其他语言。考虑到只需几秒钟的音频就能轻易复刻出一个人的声音,为了整个互联网乃至整个世界的安全,该公司表示目前只对商业合作伙伴开放。这种情况未来会有变化吗?祝我们大家好运。
与Siri或Alexa不同,ChatGPT无需唤醒词。在该应用的设置菜单中,启用“语音对话(Voice conversations)”,然后点击应用右上角的耳机图标就行。当系统聆听你的提示时,一个白色圆圈会变成漫画风格的思维气泡。还可以点击一个按钮来中断冗长的回答。
这一切让我深受吸引。自然的声音,再加上深入的回答以及系统对我的了解,让我感觉像是在进行真正的对话。当我让它假装是我最好的朋友和我聊天时,我们聊了足足五分钟,聊我一天的工作、视频制作和我们喜欢的零食。当我让ChatGPT把我当成一个六岁的孩子,向我解释宝可梦(Pokemon)时,它表现也很出色。
但你当然还是在跟机器说话。从上面的片段中可以听到,它的响应速度可能会非常慢,也可能会出现连接失败——重启该应用会有帮助。有几次,它突然中断对话(我以为只有粗鲁的人类才会这么做!)。OpenAI表示,我遇到的问题是由于给我测试的应用是早期的一个版本,消费者应该不会遇到这些问题。
眼睛
如果说语音赋予了ChatGPT与世界对话的能力,那么新的相机功能则赋予了它观察世界的能力。
现在,你不必用文字描述,而是可以在iOS、Android和web应用中点击“按钮”上传图片或拍照,圈出你希望ChatGPT关注的区域,然后提问。以下是我尝试过的一些图像:
房子里坏掉的物件: 我拍下自家车库里漏水的水管,然后问ChatGPT“我该怎么修?”很快就得到了答复,共有七个步骤,包括用特氟龙胶带缠绕连接处的螺纹。
ChatGPT水管工?只需一张照片,这个人工智能就能提供如何修补漏水处的建议。图片来源:JOANNA STERN/THE WALL STREET JOURNAL
食物:上传一张草莓发霉的照片,问题是“我能吃这个吗?”得到一个很好的建议:不能。上传一张香蕉、鸡蛋和草莓(不发霉)的照片,问题是“我能用这些做点什么?” 一个很好的建议是:草莓香蕉煎饼。
受伤和健康问题:ChatGPT很快就识别出我儿子脸颊上的伤口是“印记或皮疹”,但表示“我无能为力”,以及“最好咨询医学专业人士”。
游戏和解谜: 一张井字棋(Tic-tac-toe)僵局的照片?ChatGPT不知道游戏已经结束了。它说要把我的X放在(已被占据的)底部中心。
ChatGPT还说我会胜出,甚至加上了感叹号和彩纸表情符号。这完全是错的!
在AI革命浪潮中,这一点才是我们真正要牢记的。随着人类互动与人机互动之间的界限不断模糊,这些系统可能缺乏背景知识和思维深度——而且经常出错。
正如我的新ChatGPT语音朋友对我说的那样:“虽然我听起来很健谈,但请记住,我只是在处理数据。一定要运用你的判断力,尤其是在重要的事情上。”