目前国内电影票房的日趋火热,2010年到现在电影票房近乎呈指数增长,理念观影人数以及电影银幕数数量同样呈近乎指数的增长趋势,而由于中国人口基数大,每10万人拥有的屏幕数(2块左右)仍远低于美国的14.9块。在这样的大趋势下,电影票房预测分析顺应而生。电影票房预测分析有助于考察电影本身特质对票房的主要影响因素,在一定程度上预测电影票房,为投资方在初期提供决策,为拍摄方在电影相关细节方面给出合理化建议。做电影票房预测分析回答的核心问题只有一个:如何拍出票房可能更高的电影。
数据文件说明:数据文件名为:film.csv。该数据记录了2011年到2013年票房1千万以上的所有电影的相关数据,每个观测为一部电影,共273部电影。因变量就是电影票房,自变量包含两大部分:影片自身属性和导演演员相关属性,其中影片自身属性包括影片类型、影片IP属性、上映时间以及宣传方,导演演员属性包括导演名字、年代、第几部作品、获奖情况、导演是否转型、两个主演名字及对应的主演百度指数。
本案例共包含四个知识点。1.数据读入,读入常见的csv格式数据2.数据清洗,主要处理缺失值,使分类变量更具直观的描述性3.对数据进行基本的描述性和探索性分析,主要用到箱线图,观察电影票房在各分类变量条件下的关系,得到初步的关联概念,初步确定未来的研究方向4.使用多元线性回归进行推断和预测分析,得到系数并且进行初步的观察和解释,并且运用模型对新变量进行预测
1.启动Rstudio2.使用setwd()函数设置工作目录,将数据文件拷贝至工作目录下3.清空当前全局环境中存储的所有变量,释放内存空间4.使用read.csv读取数据,设置相应的参数,这里我们设置表头为真,不将字符串自动转化为因子向量,并且将5.读取的数据赋值给自定义的对象a。6.查看读入的数据对象a。
知识点小结:描述性分析和探索性分析都是直观的通过图形来描述和探索变量之间的关系,本知识点大多数图形用箱线图表现出各影响因素对电影票房的影响,箱线图的宽度是此分类下的电影数量,所以这里用一维箱线图表现出了三维的数据,更加的直观简便。
从模型中得到的部分启示:影响票房的主要因素有:影片类型、宣发团队、IP因素、档期、导演投资选材建议:选择魔幻、悬疑类题材,故事尽量原创,有一定的群众基础(最好是翻拍片),抢占贺岁档,宣发团队要豪华(联合企业),找一个从演员转行的得过奖的导演
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
Level Ⅱ+Ⅲ:中国区30所城市,北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州看看我所在的地哪里报名