前言
自从上一篇“网站技术分析报告之——开心网(kaixin.com)”发布之后,得到了多家网站的转载,包括中国站长站,it.com.cn,博客园等知名网站。同时也引来一些朋友的拍砖,在此我作一个声明,本人做这个技术分析报告的系列,仅仅是个人兴趣爱好,从个人观点出发,本着我不严谨爱调侃的精神,自娱自乐一番。这些文章并非科学学术著作,自然免不了有失偏颇,也不全面,仅供各位参考。
好了,废话说了这么多,进入主题吧,上次我们说完开心网,这次我们再找一家知名的网站去哪儿,官方网址:www.qunar.com,去哪儿可以说 是垂直搜索的一匹黑马,当年据说各大旅行代理网站以及航空公司要封杀去哪儿,现在,我估计得争着和人家合作了。
第一次对去哪儿的源码感兴趣的是在一次我需要航班信息的时候,那段时间我对去哪儿的代码有过一些时间的分析,并且成功地抓取去哪儿的航班和酒店数 据,仅作学习之用,请去哪儿不要找我了,呵呵。
我想这次分析要稍为严谨一丁点儿,要不然会有较真的人要骂我。我准备从代码质量、Javascript、CSS、url及网址结构、广告、图片等多 个方面进行分析。
架构试探
虽然只是分析了前台的代码,但所谓管中窥豹可见一斑,根据我以前对qunar的代码分析,仅仅从这些前台的代码,我们也可以看到系统结构的一些端倪 的。去哪儿整个网站的重点是在搜索,我想他们是有一个爬虫以及和各大航空公司/旅游代理网站的接口在后台来做数据的采集,这个是重点。然后对采集回来的数 据进行分析之后,定时生成JSON静态数据,前台调用采用Ajax的模式,以提高响应速度。我觉得去哪儿这种方式非常好,因为数据都是定时更新的,把每个 城市的数据都生成静态的json,特别是一些不常更新的数据,比如航空公司,酒店,航班信息等,有利于提高响应速度和降低服务器的压力。数据和实现分离也 很彻底,自己的网站通过WebAPI读取,有利于产品化,以及方便与第三方合作,实现公司灵活快速地根据实际情况调整产品。
我自己估计的 Qunar大体架构
这样做同时也有缺点,因为你的数据非常的干净,别人要取就很容易了,反正我是取过去哪儿很干净的数据,干净而透明,呵呵。可能是去哪儿觉得这些数据 都是比较实时的,你就算拿到这些数据也没有用。但是我觉得尽管如此,还是应该在服务器加一些限制,对请求数量进行限制,或者加一些别的限制,这样有利于防 止机器请求,提高服务器的可用率。