RSS

命运多舛的HOJ

Labels: ,
原本这篇文章应该发表在去年,继续是和上次提到HOJ助手的话题。按照既定的roadmap,最近实现了用来反映HOJ 最近24小时活动情况的图表,这里的“活动情况”就是指Accept问题的数量(同一用户多次Accept只计算一次),数据每小时更新一次,这次还是用的Google Chart API,但是在服务器端缓存了的图表,因此url非常简单: http://hit-acm.appspot.com/chart/hourly_activity,这样图表可以在任意网站引用了,有点儿RESTful的意思吧(大家不要顽皮的尝试Post这个url哦)。


但是...命运多舛这个词上场了!程序刚刚调试完成,只收集了几个小时的数据,HOJ就宣布Down掉了,真是汗啊,所以当时就没有发布这个新的图表。

在我苦等HOJ回来的寂寞岁月里,也模仿istwitterdown的网站写了一个ishojdown的页面,恩完全是出于无聊,点了链接被雷到的不要怪我。

不过更"杯具"的是当HOJ宣称重新上线后,GAE还是不能远程fetch HOJ的页面!看来是HOJ的服务器把GAE的地址当成是收费ip给屏蔽掉了...只好利用手头现有的一些教育网内服务器做了中转,才算是让爬虫程序又跑起来了。不过麻烦的是多了一个中间节点,就多了一分出问题的可能性,想想一台中转服务器不靠谱,又找了一台(哎,谁让俺做了好多高校的项目呢,也许这是这两年工作唯一的好处吧XD),两台同时运行就比较可靠了。不过这个可靠是最终一致性的典型,爬虫在扫描的时候偶尔遇到网络故障会把某一个小时的ac数留到下一个小时计算,所以有时候会有突然启动的峰值,那就是网络那时候比较顺畅...汗。于是绕了很大一圈,我终于回到了当初的地方,可以发布新的图表了! 其实还有每日级别的信息统计,不过目前数据太少,等数据更多一些在上图吧。


0 Responses to "命运多舛的HOJ"

Post a Comment (友情提示:添加评论需要翻墙)