数据加工流程

我们的数据怎么来?

团队经过讨论,决定通过使用Python的splinter模块,打开chrome浏览器模拟用户进行登录和微博搜索等操作。
除了使用网络爬虫爬去相关数据外,我们还在数据入库前对数据进行了统一的格式化清洗工作。

我们选择了什么数据?

我们的挖掘与可视化所使用的数据集来源广泛:新浪微博核心数据新浪微博话题榜榜单数据、CSM全国测量仪数据、百度风云榜榜单数据、百度贴吧会员数、百度贴吧帖子数百度高级搜索数据集等。

我们对数据怎么挖掘?

为了达到从海量微博用户数据中提取出和电视节目热点相关的信息,团队决定采用多种方法融合的社交网络算法以及关联分析方法对我们的数据进行分析与挖掘。具体方法包括中文分词、语义分析、性格筛选等。

我们如何可视化?

我们不仅实现了散点图、条形图、折线图、扇形图等多种图表格式,同时还具有绘制网络拓扑图、二维矩阵、联动数据图表、LBS数据的能力。
元素拖拉拽、图表重计算、图表形式转换、可视化结果保存等也已实现。