Python看春运,万条拼车数据背后的春节迁徙地图

前言
很早之前发过一篇关于某拼车平台爬虫的文章,因为工作比较忙,一直没有下文。最近年底稍微空了些,加上碰上春节返乡大潮,刚好再拿过来写一下数据分析的思路。
本次数据样本共13041条,本别采集了北京、上海、广州、深圳、杭州的某一天出行数据,由于手动操作难以保证取样的公平性,所以不能对全部数据结果的准确性做保证,本文以提供思路参考为主,先放一张路线图:
统计结果
好了知道大家比较关心结果,所以先把结果放一放,后面再接着讲分析过程。
乘客性别
先单独把性别拎出来看一下,后面再根据城市进行分析,结果显示,抛开未设置性别的乘客不论,总体来看顺风车的用户群中,男性(占比 49.39%)还是多于女性(占比 31.55%)的。毕竟跨城顺风车,大过年的,女性乘客对于安全性的忧虑还有要有的。
城市订单
真实数据的话订单数量应该是深圳 > 北京 > 广州 > 上海 > 杭州,但是同一个城市内的乘客性别比例应该还是具有一定的参考价值的,可以看到北京、上海、深圳的女性乘客数量占比都是高于男性的。
客单价
原本是想比较一下平均路程长度,但是想想这个事情太折腾了,由于平台主要还是依靠路程来计算拼车费用的,所以通过计算客单价的话大概也能反映一下平均形成长度(我猜的,然后结果是这样的,没想到广州是最高的,也可能是我统计错误。
哪里乘客最壕
有时候有些偏远地区订单或者顺路司机少,乘客会加价希望司机接单,于是统计了一下各城市加价订单的占比和平均的加价额度,得出如下结果:
占比最高的城市是深圳,平均加价额度最高的城市也是深圳,看来深圳的小哥哥小姐姐们的确出手阔错,然而加价比例最低的是北京,不过这也不能说明帝都人民不壕气,可能就是人家繁华,司机多。
返乡路线图
最后放几张返乡的路线图
北京
上海
广州
深圳
杭州
杭州明显有别与其它几个城市,一个是杭州的数据样本多,另外一个平台上杭州黄牛多,那些最远的单子就是黄牛广告单。
爬虫思路:注册成为司机,利用 mitm 抓包存储拼车单
统计思路:数据的话我是通过本地 mongodb 存储,所以直接用 python 操作 mongodb 数据
pymongo:关于 mongodb 数据库的连接,直接上代码:
这里介绍一下关于 pyecharts 的图表样式配置,为了保持各图表的样式统一(偷懒),pyecharts 提供了一个 style 类,可用于在同一个图或者多个图内保持统一的风格。
代码解读
因为全部代码有点长,所以抽了一段举个例子,主要思路就是从 mongodb 取出指定数据,或者通过 $group 管道对数据进行处理,最后通过 pyecharts 生成相应的图表,呈现

第一波5G流量套餐这个价 来看看用得起吗?
草莓音乐节也"翻车",这届文案怎么了?
路虎 发现4前保险杠 前杠(ROVH001)
销售高端指挥中心调度台的厂家
大事件丨6.2海珠唯品同创汇周年时尚庆典——携手中国服装设计大师刘洋共襄时尚盛举
Python看春运,万条拼车数据背后的春节迁徙地图
呈贡保密资料印刷-滇印印刷厂家电话-保密资料印刷多少钱一
紧身圆领保暖内衣套装纯棉
门头沟区会所装修改造翻新施工队,材料检测
依索维尔总公司会帮助开业吗?
比较专业的母音恢复机构哪里找
济南山东草莓苗,草莓苗,草莓苗红珍珠,红珍珠品种介绍
水烟筒批零店 内蒙古西藏四川高档水烟丝专用健康烟筒
超高压大电容 600v 3300UF 日立全新进口电容
驱蚊器 电子驱蚊器 电子灭蚊器 灭蚊驱虫驱鼠器 电驱蚊器
佘山路虎汽车音响改装服务品牌
江苏扬阳搪瓷反应釜 厂家生产 质量保证
港股全国代理招商
于都性价比高的道路护栏更好的安装才能发挥好的功效吗
花卉得了“病虫害”,不要急、不要慌,1个方法,小虫子一扫光