近年来,科技飞速发展,在经济全球化的背景之下,大数据将进一步提高社会综合发展的效率和速度,大数据技术也会涉及到各个领域,而爬虫实现网站数据可视化在网站数据可视化背景下有着无法忽视的作用。管理信息系统的开发是一个不断优化的过程,随着网络大数据时代的到来,管理信息系统与大数据集的集成成为必然。
本次将以电影影评的垂直搜索引擎和信息管理系统两个方面为切入点,论述了电影影评的垂直搜索引擎与信息管理系统的意义和内容,以此展开对网站数据可视化的开发与建设的详细分析。从数据挖掘的角度出发,了解信息管理系统的作用,对数据分析的过程以及用处进行更深一步的研究,数据的处理效率,以及具体的应用方向。对于大数据环境下对信息管理系统所带来的影响,将从传统管理信息系统与大数据环境下的管理信息系统进行对比分析,从硬件优化、软件开发,这几个方面来论述爬虫实现网站数据可视化的优势所在,分析电影影评的垂直搜索引擎在大数据时代发展的变化趋势。并且以电影影评的垂直搜索引擎为例,分析在网站数据可视化的客观需求分析,针对其中的问题对网站数据可视化做出一些无论是加强相关政策的立法工作还是建立及时的信息反馈等等的合理化建议,并进行对于未来发展的分析规划。
关键词:电影影评的垂直搜索引擎;
系统相关技术
2.1 Python简介
Python 属于一个高层次的脚本语言,以解释性,编译性,互动性和面向对象相结合。在设计上相比其他语言,它更具有特色语法结构,很强的可读性。
2.2 Django框架介绍
Django是一个开放源代码的Web应用框架,由Python写成。采用了MVT的框架模式,即模型M,视图V和模板T。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的,即是CMS(内容管理系统)软件。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的。
3.1.1系统总体分析
本系统采取了一系列的设计原则,主要目的是为了系统的功能设计,还有管理人员在后期对系统维护时的方便,以及使用户能够简易的操作。最重要的设计原则包括:简单性、针对性、实用性、一致性、先进性。
(1)简单性:在该系统中功能模块实现的同时,让用户操作起来简单明了,很快找到所需资源是最直接的目的。
(2)针对性:该系统是根据设计需求为导向来开发爬虫实现网站数据可视化的设计,所以针对性较强。
(3)实用性:该设计能够满足爬虫实现网站数据可视化的实际的功能需求,能够在实际中让用户真正使用到,具有实际的应用价值。
(4)一致性:网站整体的页面布局,在不同的界面之间,img里的图片的放置位置以及大小都应该有严格的一致性。变量命名规则应该具有统一性。
(5)先进性:本系统采用Python作为开发语言、Hadoop、Django框架、MySQL作为系统数据库,它们被软件设计者们广泛使用。
需求分析
系统模块分析是对系统的各个模块做出相应的说明以及解释。其中看板模块包括中国电影评分走势、国家电影数量统计、年份电影数量分析、电影评分分析、评价人数占比等这些子模块;对系统模块做出详细的分析会使系统的结构更加清晰,从而系统开发进行的也会更加顺利。
3.3.1 用例概述
图3.1 用户用例图
图3.2 管理员用例图
3.4 系统流程分析
3.4.1 登录流程图
登录流程是该系统的第一个流程,登录的第一步是输入账号、密码登录,系统会验证账号与密码是否正确,正确时系统会判断账号类型再进入不同的后台;不正确时,会返回到登录的第一步,输入用户重新执行登录流程。该流程如图3-3所示。
图3-3登录流程图
3.4.2 添加新用户流程图
添加新用户的流程是先查询新用户名是否已存在,如已有该用户名,需重拟用户名并同时输入新用户的其它信息,添加新用户到数据库时会先验证数据是否完整,信息都正确且完整时,返回并刷新用户列表;信息不正确时,会返回输入信息的那一步。该流程如图3-4所示。
图3-4添加新用户流程图
3.4.3 功能模块设计
该章节的功能模块设计,只是大概描述了系统的所有功能模块,将功能按权限来讲解。系统总体结构图如图3-5所示。
图4-5 系统总体结构图
4. 数据库设计
4.1 数据库设计规范
4.1.1 概念性数据模型
电影影评的垂直搜索引擎数据的可视化分析系统需要数据库存储系统中的信息,MySQL数据库能够处理系统的信息,当电影影评的垂直搜索引擎数据的可视化分析系统需要数据的时候,MySQL数据库能够取得数据交给服务端处理。MySQL数据库能够使用可视化软件操作,管理员可以在可视化软件对数据库的信息机芯管理。
系统数据层设计包括了E-R设计,系统数据实体的设计依赖于E-R的分析和设计,通过E-R能够得到数据库表的设计,E-R能够描述系统所涉及到的实体,还能够描述系统中不同实体的联系和关系[11]。
(1)需要能够充分地反映现实世界,包括现实事物之间的联系,这样有利于满足不同程序开发者对数据处理的需要。
(2)需要能够容易理解,从而可以使得即使不熟悉计算机的用户也可以快速使用系统,如果一个数据库设计得较为成功的话用户也可以选择参与。
(3)需要能够易于变更。当系统应用环境发生改变的时候,概念模型往往需要改变,因此数据库需要设计得以后容易修改概念模型。
用户E-R如图4.1所示。
图4.51用户E-R图
用户信息E-R如图4.2所示。
图4.2用户信息E-R图
电影分析S E-R如图4.3所示。
图4.3 电影分析S E-R图
详细设计
5.1数据可视化分析看板展示
在设计好我们的数据采集方案后,我们就需要动手对手机或电脑浏览信息进行采集,我们所采用的爬虫代码是将加载的页面当作文本文档来读取的,通过正则达式或者字符串匹配的方式,因此我们需要找到电影影评的垂直搜索引擎页面中大数据展示信息的div,同时这个div具有区别于其他块的特有的class,在进行字符串匹配的时候易识别且具有唯一性,电影影评的垂直搜索引擎看板采集目标展示如图5-1所示:
图 5-1 采集目标展示
下面展示是中国电影评分走势,对于中国电影评分走势大数据,数据获取之后,开始对这些数据进行可视化分析,首先是中国电影评分走势的基本情况,其中根据爬取的数据得到有关中国电影评分走势如图5-2所示。
图5-2中国电影评分走势界面图
下面展示是国家电影数量统计,对于国家电影数量统计大数据数据获取之后,开始对这些数据进行可视化分析,首先通过页面查看国家电影数量统计详情以饼状图分析进行来展示,如图5-3所示。
图5-3国家电影数量统计界面图
在年份电影数量分析页面以波浪图进行展示 5-4所示。
图5-4年份电影数量分析界面图
下图是电影评分分析,通过python爬取清洗后的数据形式展示如图5-5所示:
图5-5电影评分分析界面图
关于评价人数占比,我们通过柱状图进行展示,如图5-6所示:
图5-6 评价人数占比界面图
5.2管理员功能的实现
在登录界面中需要使用el-input标签实现输入框供管理员输入用户名和密码,需要使用name标签表示不同的信息。在登录界面中还需要包括角色的按钮,使用el-radio表示按钮,管理员可以点击按钮从而选择不同的角色,如图5-7所示。
图5-7管理员登录界面
管理员登录进入电影影评的垂直搜索引擎可以查看首页、用户系统、电影分析系统、认证和授权等功能,进行详细操作,如图5-8所示。
图5-8管理员功能界面图
管理员点击用户信息;在用户信息页面输入ID、用户名、昵称、图片、手机号、性别、个人简介等信息,进行搜索,增加或删除用户信息等操作;如图5-9所示。
图5-9用户信息界面图
管理员点击电影分析S;在电影分析S页面输入ID、封面、名称、国家、时长、主演、导演、类型、评分、用户名、评价数、评论等信息,进行搜索,增加或删除电影分析S等操作;如图5-10所示。
图5-10 电影分析S界面图
管理员点击用户;在用户页面输入用户名、电子邮件地址、名字、姓氏、工作人员状等信息,进行索搜、增加或删除用户等操作;如图5-11所示。
图5-11用户界面图
5.3用户功能的实现
在登录界面中需要使用el-input标签实现输入框供用户输入用户名和密码,需要使用name标签表示不同的信息。在登录界面中还需要包括角色的按钮,使用el-radio表示按钮,用户可以点击按钮从而选择不同的角色,如图5-12所示。
图5-12用户登录界面
系统测试
系统测试是软件开发过程中最后一步,但也是不可或缺的重要的一步,没有人可以保证一次性编写完成的系统不会出错,而系统测试就是将自己开发的系统成为成品前的最后一步。在测试过程中需要进行严谨细致的测试,要尽可能全面地在不同情况下运行该系统,排除一切出现错误的可能。
该系统的系统测试主要包括功能测试,可用性测试,维护测试,性能测试等部分,测试结果如下:
6.1 功能测试
功能测试主要包括五项内容:适用性、准确性、可操作性、依从性、安全性。
本系统功能测试如表6-1所示:
表6-1 系统功能测试
测试内容 | 测试结果 |
依从性 | 正常 |
安全性 | 正常 |
可操作性 | 正常 |
适用性 | 正常 |
准确性 | 正常 |
6.2 可用性测试
可用性测试用于检测系统的可操作性、可理解性、可学习性等方面内容。具体测试方面如表6-2所示。
表6-2 系统可用性测试
测试项 | 测试人员的评价 |
操作流程是否合理 | 是 |
所需数据项是否正确显示 | 是 |
模块布局是否协调、合理 | 是 |
模块、提示内容等文字描述是否正确 | 是 |
对选中项能否发生对应切换 | 是 |
操作方式是否简单 | 是 |
操作是否流畅 | 是 |
6.3 维护测试
由于篇幅的原因,本节给出系统部分功能的维护测试用例。具体测试方面如表6-3所示。
表6-3 系统用例测试
序号 | 用例名称 | 用例操作 | 预期结果 | 测试结果 |
1 | 用户登录 | 输入账号、密码 | 输入正确账号和密码进入系统主界面,输入错误账号或密码无法进入并给出提示 | 符合预期 |
2 | 爬取中国电影评分走势 | 在页面内分析中国电影评分走势,点击“添加”按钮 | 正确存储中国电影评分走势 | 符合预期 |
3 | 查看中国电影评分走势 | 查看列表,按照查询条件,筛选符合需要的信息,进一步详细查看中国电影评分走势 | 正确显示中国电影评分走势 | 符合预期 |
4 | 添加用户信息 | 在页面内输入用户信息,点击“添加”按钮 | 正确存储用户信息 | 符合预期 |
5 | 翻页功能 | 点击“上一页”“下一页”“首页”“尾页” | 跳转到正确页 | 符合预期 |
6.4 性能测试
性能测试主要通过模拟系统运行环境来测试该系统是否能达到用户期待。性能测试的重要技术指标就是:系统运行速度、网络响应时间和支持并发节点数。
1)系统运行速度:得益于B/S架构,该系统能在不同配置电脑上运行并无明显卡顿,滞后,完全符合用户要求。
2)网络响应时间:网络响应时间主要包括网络最小响应时间、平均响应时间、最大响应时间三个参数。经过测试,在正常网络运营状态下,局域网内响应时间三参数为:1/2/5s,外网响应时间三参数为3/7/12s,符合用户需求,属于用户心理可承受范围。
3)支持并发节点数:经过模拟环境测试,本系统在并发节点达45个时,网络运营速度会发生较大波动,延迟时间10秒左右,符合用户需求。
标签:vue,springboot,电影,系统,用户,测试,可视化,毕业设计,所示 From: https://blog.csdn.net/boke1314/article/details/141614165