Xer@Xer
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“帮你 @xw2423 一下 【 在 souxunzhe (我在路边) 的大作中提到: 】 : 该怎么入手呢? byr论坛有没有提供相应的API? 或者通过其它方式利用现有的爬虫进行抓取? 求好人解答。。[ema23]”
“那和在每个目录里直接放makefile有什么不一样呢?只是因为cmake能根据平台不同生成对应的项目/makefile么? 【 在 FadeToBlack (烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫*&^) 的大作中提到: 】 : 最简单的说,工程结构类似 : root : root/lib_a : ...........…”
“正则表达式是针对单行的,你这个跨行了吧 分析网页内容还是用专门的html解析库比较好 【 在 fenixlee520 (流浪剑客) 的大作中提到: 】 : 想用正则匹配抓一段新浪新闻的html码,好进一步提取。 : <span id="news_con_1"> : <!-- 20090309 地域上海 end --> …”
“哦……我只是担心如果都放一起的话不知道查询速度怎样,因为ip的数量不会太多,而对于每个ip,时间段(begin, end)会比较多一些,url请求也很多,所以希望对每个url请求,查找到当时的ip对应的mac越快越好(从目前的样例数据来看是这样) 【 在 zzcc (Binux <足兆叉虫>) 的大作中提到: 】 : …”
“有好的推荐没…… 我现在用leveldb,但是功能太简单了,像(ip,time)这种多个字段组合的key不知道怎样存储(难道都转成字符串一个接一个?) 【 在 ox (小贝) 的大作中提到: 】 : 我觉得你可以换个思路,可以试试NoSQL来维护IP,MAC的KV映射”
“再问一下方案2建表的问题……是(1)直接使用(ip, time)作为主键还是(2)使用ip作为主键,然后对每个ip新建一个表用于保存(time, ...)这些信息比较好呢? 【 在 zzcc (Binux <足兆叉虫>) 的大作中提到: 】 : 方案一: 由于文件1是按时间顺序写入的,根据文件2的内容动态维护IP->M…”
“谢谢bd……数据库大牛也会在这边出没吧,这边人气比数据库的好 【 在 zxsword (小绝) 的大作中提到: 】 : 不懂帮顶。。。话说论坛有@功能的话,@数据库大牛”
“看到范围查询第一时间想到B+树…… 同一时间一个url可能被多个ip访问,一个ip在同一时间内也可能访问多个页面(延迟或代理?)。想到两种方法: 1. 以时间作为主键建主索引,对url和ip分别hash然后对两个hash结果再hash或map(为了ip和url一一对应)的结果作为主索引的value。或者可以用SHA-1…”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。