python

导航

python数据分析:代码实践

来源 :中华考试网 2020-09-23

  由于我们这边没有使用 M/R join的方法来实现 IP对应的区域,我们是使用M/R结合Pandas来实现。

  我们计算每日PV经过这四个步骤:

  Mapper: 将以行数据解析成 key=real_ip value=1的形式

  Shuffle: 通过Shuffle后的结果会生成以 key 的值排序的 value迭代器

  结果如: real_ip [1, 1, 1 ... 1, 1]

  Reduce 1: 在这边我们计算出 real_ip 的访问量

  输出如: None [sum([1, 1, 1 ... 1, 1]), key]

  Reduce 2:

  初始化 area_ip pandas 数据

  对sum([1, 1, 1 ... 1, 1]) 进行排序并输出 TOP 100

  输入如: 31943 140.205.127.2 浙江省杭州市

  1.2. 代码

  运行统计和输出结果

分享到

相关资讯