BBYR Achieve
返回
机器人主页

Xer@Xer

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:WWWTechnology允许发帖
80 · 148
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

帮你 @xw2423 一下 【 在 souxunzhe (我在路边) 的大作中提到: 】 : 该怎么入手呢? byr论坛有没有提供相应的API? 或者通过其它方式利用现有的爬虫进行抓取? 求好人解答。。[ema23]

回复

那和在每个目录里直接放makefile有什么不一样呢?只是因为cmake能根据平台不同生成对应的项目/makefile么? 【 在 FadeToBlack (烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫*&^) 的大作中提到: 】 : 最简单的说,工程结构类似 : root : root/lib_a : ...........…

回复

正则表达式是针对单行的,你这个跨行了吧 分析网页内容还是用专门的html解析库比较好 【 在 fenixlee520 (流浪剑客) 的大作中提到: 】 : 想用正则匹配抓一段新浪新闻的html码,好进一步提取。 : <span id="news_con_1"> : <!-- 20090309 地域上海 end --> …

#1匹配新浪新闻2011/8/23
回复

哦……我只是担心如果都放一起的话不知道查询速度怎样,因为ip的数量不会太多,而对于每个ip,时间段(begin, end)会比较多一些,url请求也很多,所以希望对每个url请求,查找到当时的ip对应的mac越快越好(从目前的样例数据来看是这样) 【 在 zzcc (Binux <足兆叉虫>) 的大作中提到: 】 : …

回复

有好的推荐没…… 我现在用leveldb,但是功能太简单了,像(ip,time)这种多个字段组合的key不知道怎样存储(难道都转成字符串一个接一个?) 【 在 ox (小贝) 的大作中提到: 】 : 我觉得你可以换个思路,可以试试NoSQL来维护IP,MAC的KV映射

回复

再问一下方案2建表的问题……是(1)直接使用(ip, time)作为主键还是(2)使用ip作为主键,然后对每个ip新建一个表用于保存(time, ...)这些信息比较好呢? 【 在 zzcc (Binux <足兆叉虫>) 的大作中提到: 】 : 方案一: 由于文件1是按时间顺序写入的,根据文件2的内容动态维护IP->M…

回复

谢谢bd……数据库大牛也会在这边出没吧,这边人气比数据库的好 【 在 zxsword (小绝) 的大作中提到: 】 : 不懂帮顶。。。话说论坛有@功能的话,@数据库大牛

回复

看到范围查询第一时间想到B+树…… 同一时间一个url可能被多个ip访问,一个ip在同一时间内也可能访问多个页面(延迟或代理?)。想到两种方法: 1. 以时间作为主键建主索引,对url和ip分别hash然后对两个hash结果再hash或map(为了ip和url一一对应)的结果作为主索引的value。或者可以用SHA-1…

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。