首页> python> python数据分析> 文章内容
python数据分析:代码实践
来源 :中华考试网 2020-09-23
中由于我们这边没有使用 M/R join的方法来实现 IP对应的区域,我们是使用M/R结合Pandas来实现。
我们计算每日PV经过这四个步骤:
Mapper: 将以行数据解析成 key=real_ip value=1的形式
Shuffle: 通过Shuffle后的结果会生成以 key 的值排序的 value迭代器
结果如: real_ip [1, 1, 1 ... 1, 1]
Reduce 1: 在这边我们计算出 real_ip 的访问量
输出如: None [sum([1, 1, 1 ... 1, 1]), key]
Reduce 2:
初始化 area_ip pandas 数据
对sum([1, 1, 1 ... 1, 1]) 进行排序并输出 TOP 100
输入如: 31943 140.205.127.2 浙江省杭州市
1.2. 代码
运行统计和输出结果