发布时间:2020-11-07 00:01:55
注明:本文甚无趣,除有专门需求,可跳开或直接忽略。
昨天跟BI要了个谷歌自然搜索流量的栏目细分数据,但早上拿到后发现每天比平常统计的多了10+W。细分一下才发现里面还有很多参数需要过滤和处理。下面是过滤的步骤:
基础级
- 先是从referer里提取出含有
google
的log数据(获得元数据) - 过滤广告数据,有
/ad?
,doubleclick
(除掉15%) - 过滤图片数据,有
tmb=isch
,imgres
(除掉17%) - 过滤翻译,邮箱和地图,有
translate
,mail.google
,maps.google
(除掉3%) - 过滤aol,有
.aol.
(不到1%)
进阶级
通过以上环节,基本上已经完成了90%。如果想做到极致,可以继续细分。(注意,以下是细分,并不是过滤。是否过滤看自己情况。)
url?
。谷歌的跳转URL,302跳转到目标网页。aclk?
。谷歌的跳转URL,302跳转到目标网页。
请注意,付费搜索也在使用前两个参数,通过这个参数获得自然搜索时要先过滤掉广告数据。
search?
。常规的搜索参数,不过数量不太多。- google首页,没有参数,可以用正则过滤。这部分可能是因为用户使用了https搜索,出于隐私保护没有具体地址。
m?
,/#
,webhp?
,xhtml?
。这些是谷歌的跳转URL,会跳转到谷歌的搜索结果页。但数量都不多。
还有一些不知道啥东西的URL:
google.com/search
。很奇怪的referer,没有搜索词,只有这个。/blank.html
。也很奇怪,是个空白页面,但能着陆到网站上。cse?
。也是个空页面。/uds/afs?
,空白页面,数量极多。
基本就这么多了,今天才忽然发现原来之前就不知道真实的自然搜索流量,真是可悲。这就是一天的成果,正好可以加在最近的BI日志分析系统中。
一个示例
以下是我昨天数据整理的一些过程,时间范围机密就不说了。
元数据102562
一轮过滤。3个搜索流量,规则:
url? 跳转参数,302至目标网页
aclk? 跳转参数,302至目标网页
search? 常规搜索参数
剩余45725
二轮过滤。referer是google首页,规则:
/$ 安全搜索,referer为google首页
剩余28485
三轮过滤。广告流量,规则:
/cs/ 着陆页为广告
剩余27799
四轮过滤。莫名奇妙的2个referer,规则:
/blank.html 空白页面,不知道来由
/uds/afs? 空白页面,不知道来由
剩余26191
五轮过滤。莫名其妙的一对规则:
xhtml? 37 跳转至GG搜索结果页
custom? 24 GG自定义搜索或由GG驱动的搜索
webhp? 174 跳转至GG搜索结果页
m? 460 跳转至GG搜索结果页
/# 179 跳转至GG搜索结果页
cse? 109 空白页面,不知道来由
.aol. 67 AOL搜索
/image? 23 图片搜索
剩余25166
六轮过滤。2个莫名其妙的参数:
/search$ 24431 可能是安全搜索
google.com$ 680 安全搜索,referer为google首页
剩余55
剩下的都是零碎的规则,没有进一步整理。
注:欢迎各位朋友一起交流讨论。
图注:Google在2013年7月3日在大陆,台湾,香港显示的动态doodle,为纪念《本草纲目》作者李时珍诞辰 495 周年
关键词:谷歌