加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

文本挖掘找出50年间最流行的音乐

发布时间:2020-12-14 05:04:52 所属栏目:大数据 来源:网络整理
导读:编者按: 现在公众号有置顶功能了,大家把微信更新到最新版本,点开“大数据实验室”公众号。点“ 置顶公众号 ”键,就可以置顶了,这样。不管我们什么时候更新,您都能容易找到。 从 1958 年开始每年十二月 Billboard 都会发布一个年度 百首 流行曲金榜。这

编者按:


现在公众号有置顶功能了,大家把微信更新到最新版本,点开“大数据实验室”公众号。点“置顶公众号”键,就可以置顶了,这样。不管我们什么时候更新,您都能容易找到。


1958年开始每年十二月Billboard都会发布一个年度百首流行曲金榜。这个图表涵盖了美国全年的流行单曲表现。


通过R语言,我已经把50年的(1965-2015)?年度流行金榜百首的歌词合并到一个数据集进行分析。你可以在我的Github库中下载该数据集。


获取歌词


用于分析的歌曲是来自于对维基百科中每个Billboard年度流行金榜百首(如2014年)的抓取。这是整个年度的图表,而不是每周的排名。许多艺术家做过周图表,但没有做过年度图表。年度图表是通过周Billboard的逆点系统来进行计算的。

我使用XMLRCurl从每个维基百科词条中抓取歌曲和艺术家的名字。然后我用这个列表从有可预见的URL字符串的网站上抓取歌词(例如,metrolyrics.com就使用metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。如果第一个站点抓取失败了,就转向第二个,依此类推。大约78.9%的歌词是从metrolyics.com上抓取的,15.7%是从songlyrics.com上,1.8%是从lyricsmode.com上。另外大约3.6%(187/5100)没有找到。

该数据集对5100个观测对象根据歌曲、艺术家、年份、歌词和来源进行了1-100的特征等级划分。归功于维基百科艺术家特征是相当标准化的,但当涉及到与艺术家的合作时就存在一些问题。如果在抓取的歌词中存在错误,如拼写错误或另外的像把“night”写成了“nite”,这些并没有得到纠正。

管理数据

最常见的歌词


58%一单首现象


出现在年度图表上的1989名中的1154名艺术家(约占58%)都仅仅只有一首知名曲目。右边的数据是通过把艺术家的歌曲进行汇总而计算出来的;另外把“精选”艺术家都单独列出来。这意味着只有位列第一的艺术家才能得到对其歌曲的完全信任。


Songs

1

2

3

4

5

6

7

8

9

10

Artists

1154

319

160

90

70

61

31

23

13

18




马拉松vs冲刺生涯


我们惊讶地发现一些位居表格顶端的艺术家反而有相对较短的职业生涯(Rihanna10年时间内有28个入表的歌曲),所以我观察了一下歌手职业生涯的长度和入榜歌曲的平均数量之间的关系,并发现这两者之间是呈负相关的。职业生涯跨度每增加一年,每年歌曲入榜平均数量就会减少94%。


*数据集不包括1964年披头士乐队第一年入选年度榜单,所以实际上他们的职业生涯跨度是12年。



随时间增长歌词的变化



Python量化投资实战营(深圳-香港)

量化交易深入解析

用Python做量化交易

Mongodb数据库与数据处理

Python量化引擎基础,执行一个策略

环球FOF投资

股票数据统计与Alpha因子策略

量化策略-CTA策略……

2017年8月21日-25日(第二期)深圳-香港

报名电话/微信:18516600808



词汇和曲长不断增长


数据集中的歌曲平均总长332个单词,114种词汇。平均字数(包括种类和数量)随着时间的推移不断增加。字数的变化量也有所增加,可能是由于随着时间的推移进入榜单排名的歌曲体裁更加多样。可变方差通过字数统计的转换日志进行校正,并和两个线性模型拟合,最后产生总系数0.01873和单词种类系数0.0136。在每年的增加量上,总字数平均每年增加1.87%,字数种类增加1.36%。


这个增长可能是由于较长的歌曲——自从20世纪60年代以来歌曲逐渐从2.5分钟增长至4分钟,这时期快节奏的音乐风格和歌曲特征盛行,超过了对某个艺术家的关注。



BoogieBitch:十年间最具特色的歌词

利用我先前的职位(Text Mining South Park)中列出的对数似然统计,我能够识别在特定十年内最有特色的歌词。总之,在有较高的对数似然语料库中,单词会比预期出现的频率更高。?25个最有力的结果(总数>81; P <0.001下显著度10.83)。

很明显,个别歌曲是在反复重复从而影响了结果。这反而引起了对数似然在歌词上的适用性方面的一个很好的议题——一首高度重复的歌曲会扭转这个结果吗?


注意事项


广告牌年终热门100首排行榜政策的变化


流行歌曲内容的一般变化至少可以部分归因于随着时间的推移百强排名方法的演变。广告牌通过发现和购买音乐的方法改变其排名政策以保持其时代相关性。

1958年至1991年:由单曲销量和AirPlay的比例确定排名

1991年:广告牌开始收集数字销售数据(使用SoundScan的),以便更快更准确的制作图表

1998年:广告牌要求歌曲必须作为单曲发行才能出现在图表上

2005:包括数字下载(如iTunes

2012:流媒体点播服务(Spotify,狂想曲)收录

2013:包括视频形式(YouTube

现在的消费者比以往在单曲榜中更多的发言权。在此之前的2005年,消费者可以通过购买单曲或在电台上点歌来影响图表排名。现在,消费者可以通过观看视频、下载单曲或购买物理拷贝版本来对歌曲的流行度做出影响。


来源:数盟

上海财经大学 ?期货量化系统课程

量化知识循序渐进

策略研发深入辅导

解密私募量化交易策略核心技术

手把手辅导量化实战

快速掌握期货基础

实现持续稳定盈利

第二期(9月16日-9月19日)

第三期(11月18日-11月21日)

报名电话/微信:18516600808

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读