张龙飞:音乐人工智能的拓荒者

打印 被阅读次数

2017-05-25 阿朵 张西工作室 张西对话--海外留学生(20)

简介:张龙飞,1988年出生,科技大学本科毕业,目前是纽约州立学布法罗分校计算机博士。现在在做音乐人工智能的拓荒工作。

    专业研究方向人工智能和音乐结合,他组建的团队在启动智能机器替代人工作词作曲,把人类的技术革命推到一个新的高度。——编者语

   张西:你对音乐在行?

   张龙飞:其实我也不是很懂音乐,我喜欢听音乐,但也没有到专业的地步。我是学计算机的,三年前就想做人工智能相关的项目,但技术门槛比较高。当时一直在找做什么方向比较好,最开始是想做图像,但是图像我想做的时候大家已经做的已经比较成熟了,我就一直在关注。去年的时候看到一个报道,说现在新闻媒体开始用人工智能来写新闻稿了,就是已经开始商业化了,我就想,能写新闻的话,能不能写歌词啊?我当时其实就是想做歌词, 因为我觉歌曲我大概还不知道怎么做。

    张西:大胆想像。人工智能做歌词,可以实现吗?

    张龙飞:因为当时只想做歌词,然后就去找真正研究机器学习或者深度学习的朋友,找他们论证我的想法。因为我不是这个领域的专家,大概懂一些,我就反复和他们聊怎么去实现我的想法,聊后觉得我好像是可以做到,就是如何提升效果的问题。然后就开始组建团队。我先把技术核心的问题搞定后,就去找赵阳明天。我希望在音乐方面,能有一个合伙人。大概去年底,我们就很清楚,应该怎么做歌词了。

 

张西:第二步开始作曲?

    张龙飞:对呀。既然可以作词,为什么不能作曲呢?于是,我们把曲也加进去了。这样,赵阳明天身为钢琴博士,就可以发挥他的专业特长了,因为作曲完全属于他的领域。忙乎到今年二月,我们发现基本的技术都实现了,还不敢说效果很好。但我想,应该把我们的想法告诉外界,看看市场反响如何。所以二月份,我们就做了一场宣传活动,大家还蛮感兴趣的,也问了很多有争议的问题。比如说人工智能与音乐合成,对音乐作曲家的影响,对音乐人的影响,还有对版权问题、使用的市场等的影响。这些疑问,也给了我们很多思索。

    张西:然后呢?

    张龙飞:我们就把产品又进行改进。到四月份,我们开始见投资人,拉更多的潜在合伙人,跑这些活动也是一方面宣传自己,另一方面也引入更多的合作伙伴。再接下来两三个月我们要接触以音乐为生的音乐爱好者,跟他们商量做一个专辑出来,这就是未来两三个月要做的事情。

张西:如何把技术真正的运用到音乐制作里?

张龙飞:其实我们并没有很清楚,这也是投资人问的比较多的问题。这个东西给谁用?怎么赚钱?商业模式要么吸收足够多的流量,功能足够好;要么给一小部分人实现满足他们商业需求,音乐人要拿音乐赚钱,让我们帮他;要么减少制作的时间,提升它的品质;要么就是提供它需要的东西,这样的话就可以赚钱。这些事情,都是未来两三个月,我们要去做的。这个问题如果能回答的清楚,很明晰,我们的产品就算是真正成功了,也可以赚到钱了。

张西:音乐领域的一次革命。

张龙飞:目前我们的产品质量没有很好,但用到实际的创作商业中,还有一点距离。但我们团队对此很有信心。

张西:小时候上过补习班吗?

张龙飞:没有。我小时候好像天天就是玩,没压力,过得很开心。到初高中时,开始感兴趣组装电脑。对了,上幼儿园时,我学过一点点钢琴,初中学过一个暑假的吉他,但只是浅尝辄止。

张西:何时博士毕业?

张龙飞:应该还需要一两年吧。我基本上暂停学业了,导师也比较支持我创业,给了我一点时间。因为时机比较重要,有可能再晚半年,可能这个项目就是别人的了。

张西:比如我想用你的人工智能技术作一首爱情歌曲,怎么做?

张龙飞:人工智能技术,目前主要就是基于一个神经网络,这是它背后技术的根本,其实跟人脑内的神经是有关系的。人的记忆也是各种事物之间的联系,这就构成了我们的记忆网。

从最新的人工智能技术来看,还真不是那么理想化,就是说我先用数学公式这么一算,然后我们把它实现了,这个理论上有一些仿生学的意思。 这完全是个人的理解。

前几年的图像的应用比较多,包括语音识别、图像识别,这些应用也比较直接。然后到了后期,已经开始有决策这一步了。 音乐是另外新的东西,变成创造的东西,那就又不一样了,这其实是一件非常难的过程。因为人脑运算,还有存储量是非常强大的。如果您要一首爱情歌曲的话,那我们肯定是首先要去找很多的爱情歌曲,我们要建很大的一个数据库。

张西:可是数据库的建立,归类以及处理都是要钱的。

张龙飞:这就是为什么现在我们无论产品种类还是效果,短时间内都无法达到很高的要求。因为资金的要求是不小的。你要计算机做一件事情,比如说识别猫、狗或写一段音乐,你首先得很明确地告他, 给它上一张图片,这个图片的哪一块是猫?哪一块是狗?要标注好。比如说这个图片里有猫、狗、人、车、树,就这一块是猫,把它训练出来,给它一亿张图片,就意味着你要处理一亿张图片,然后标注它哪里是猫,还打边界框,这步需要大量人工干涉。

张西:噢,我要晕了。

张龙飞:音乐也是这样子的。之前是我们手工做,但音乐你要标注好,哪些轨道是吉他,到哪里是鼓、钢琴,标注清楚了,它才能知道。包括爱情歌曲,比如说你输入随机1000首歌曲,很难知道哪些是爱情歌曲,你得给它一千首全是一样类型的歌,然后你告诉它这里面的歌组成是什么样子、结构是什么样子,然后它在里面选择。就是我刚说的用神经网络,能找到这里面的模式或者关联,这其实就是音乐理论吧。但这个关联词是非常复杂的,算出来是很庞大的一个关联模式,得找到规律。有点像人学习的过程,人学习就是说我做十道加法题,然后整个十道我会了,那么可能这一千道我都会了。但你先得做对十道题,那剩下的以后就都会了。

张西:就是说,我要作的那首歌,你们得输入一万个类似的歌,它才能找到。

张龙飞:一万到十万吧,数据越多效果越好。但这里面还存在着一些随机的过程。我们理解成创造的过程。这跟人创造是一样的,就是我要进行很多错误的尝试,那这些尝试结果可能就是,稍微随机、随意、随行的东西,间接也可以做到。 比如说我输入爱情歌曲,不可能出来个摇滚乐。

现在巨大的局限就是,人其实是比较擅长于从一个小样本,就是很少的东西里面学习一整套的东西。比如说我刚说的加法,可能做了十道题,你就可以之后所有的都搞定,你会了十位、百位,那你千万、十万、百万位的都会了。但计算机不一样,计算机它十道题还不够,你可能要给它输十万道题它才能做,所有人工智能都建立在海量的数据之上。这也是我们效果还不够的原因,因为我们数据集还不够。

张西:你们的瓶颈是没钱。

张龙飞:对。无论采集、分类,标注都是需要成本的。音乐也是,当然音乐还有一个巨大的问题,就是它确实有限。比如说你想学某一个歌手的歌,那一个歌手再高产,它可能也就几百首歌, 从人的角度来说很多了。但就整个业界来说,这是一个可以忽略不计的数据。就像我刚才说的图片的数据,为了训练一个猫、狗,它可能都是几百GB的数据图片,才能识别一只猫、一只狗、一种东西。这不仅是我们,也是大公司、所有业界最需要解决的问题。现在可以识别人的声音,字体,图片,但是能不能让计算机去画一只猫、一只狗、一个车,写一篇文章,唱一首歌,产生一段语音,这个还有一段路要走。

张西:哈哈,我宁愿你们的速度慢点,否则词曲作者都要失业了。

张龙飞:就算我们慢了,业界其他人照样也要做。我刚才说,既然识别了猫,那我就能识别狗。确实猫、狗有非常多的共性,它们都四条腿,体型也差不太多, 甚至习性有共性。它们都有很多共性,那能不能从猫已经算的东西,再很快地转移到狗,减少狗运算的时间?这也是最新的东西,转移到其他领域也是这样的。

还有一个特点,就是能够解决小样本的问题。我假设有很多猫的图片,但狗的图片很少,或者世界上有些稀有动物它可能图片可能就很少,但是我偏偏就想识别它,我想保护这个动物,比如说濒临灭绝的鸟。但那个鸟本来就少,又生长在草林里边, 你想要识别它,你可能还真做不到,那怎么办呢?能不能识别其他种类的鸟,快速迁移它这里来,或者同属性的鸟。架很多摄像头,我想知道它的习性,但是我又不想跟其他鸟搞混了。这个已经很难了,一旦能把我刚才说的解决了,那它能爆发出来的影响力可能无法想象。

张西:爆发影响力的同时,可能也爆发了社会问题。

张龙飞:对,可能会引发人类社会很多根本性的变化。但这个路还要走很长,至少十年、二十年吧。

人其实是非常聪明的,非常善于学习。因为我从围棋中看到了这一点。围棋大师说这个机器人真的有我们原来没有的走法,那我就学习他们怎么走,干脆不把它当机器了,我就把它当成一个人去学, 然后我再破它。因为围棋已经到这个地步了,那就能把人类级的围棋干掉了,那以后围棋还要不要人下?

我看到的围棋大师确实是大师,他们觉得机器是有它的走法,有它的先进性,我们也很惊诧科技的发展,但我们有自己的理念,有我们的哲学。因为围棋是有大量的哲学思想在里面。机器探索了一些我们可能从来没有探索过的东西,也帮助我们提升,事实上人变的也很快。如果机器能产生出比较好的音乐,我个人觉得这些作曲家、作词家也会发生改变。

    我觉得最顶级的人肯定不会影响到,首先音乐的门槛降低了一点,把里面一些优胜劣汰,可能就变得更严峻一些,有些人可能更容易被机器给淘汰掉。举个例子,电子技术发展了这么多年,但一些大导演依然还愿意坚持用胶片来拍电影, 因为它有它的艺术追求。回到这些音乐或者电影或者文学的本质,其实还是有它比较高层的创造,这些创造计算机能不能达到都是一个问题,别说十年、二十年,这个已经复杂到很难了。我们低估了人脑、人运算的速度和能力,还有它的信息存储量。

    张西:照你所说,人也是一台非常复杂的计算机。

    张龙飞:人其实是很复杂的,但现在硬件也在飞速的发展,人其实最厉害一点,他是非常低功耗的机器,非常地节能。计算机如果我要算这么多东西,它的耗电量都是非常惊人地,非常耗能、它发非常多的热,需要散热,甚至可能都要用液氮散热,所以它非常耗能。但人完全不需要这一步,比如说让计算机写个词,那里面热的都着火了,但人写个词不会怎么样的,所以人是一个低功耗的机器。如果人像计算机那早就烧没有了,细胞早就已经烧死了,但是细胞可以这么低的能耗,完成这么复杂的工作。我觉得其实人工智能在未来会发生一些重大的变革,这个是历史的潮流,谁也无法阻挡。

张西:就像当年工业革命的时候,纺织机一出现,工人开始破坏机器。

张龙飞:最终纺织机代替了大量手工。就是您说的,这中间是一个很痛苦的过程,但确实那是人类的变化,工人们就做其他的工作去了。这中间过程因为我们有了历史的教训,人类还是比较善于学习以往经验,可能会做一些改变, 比如说新闻产业,我刚才说的写新闻,这个已经在发生了。CNN都在用。这是我去年看到的新闻,那就意味着前几年已经在做这件事情。现在他们在做东西,爆出来我们就无法想象了。

张西:我反对人工智能的快速发展。

张龙飞:计算机发展是指数级的发展,就是我现在也想象不了五年之后是什么样子,其实像您这样,反对的声音也特别大

这就是比较现实的问题,也就这半年吧,要真做不出来,估计也就做不出来了,找做其他的事情去吧。但还真不知道多大的市场,其实做音乐教育给小孩子也挺好的,这也是我们再过两三个月要做的事情,找一个点其实就好,到大家听到流行音乐的那一步还早。

张西:能想到这已经很超前了,很前瞻了。

张龙飞: 上周我去硅谷,见到我在苹果的一个师兄,他说苹果现在做了很多事情。比如说你拍了一个小时的视频,它可以剪出里面它觉得重要的部分,然后再配上音乐,形成一个小的电影,那这就是一个电影。

张西:它自己就剪了,不用人

张龙飞:不用人。它会有选择,会配音乐,会把视频跟图片都加在一起,这个很惊人。

张西:天呀,已经到这个程度了。

张龙飞:这是电影未来很重要的一个趋势。我看到了几家公司在做类似的事情。但是还跟我们音乐一样的问题,就是这个技术到底怎么用?我们也在找我们的点,但电影肯定也有它的点,看怎么样把这个用过来。

张西:这个东西真的挺好。许多人不想花太多时间做剪辑

张龙飞:这有点像我们P图,原来属于摄影师这些专业人士干的,但是这些自动P图软件开发以后,已经很容易了,甚至不用P了,按一个点,一个个键就全部出来了。原来我得找一个摄影师,花一个50或者100块钱,帮我把这张图片P一下,但现手机软件就可以做到。那以后大家就开始自然做视频了,不用剪了。苹果都可以做到。

编辑:阿朵  责编:李明泽

张西工作室网站:http://zhangxistudio.com

张西工作室微博:http://m.weibo.cn/p/1005056184049797

版权所有,如转载请注明转自张西工作室

登录后才可评论.