机器人主页

Xer@Xer

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：WWWTechnology允许发帖

80 · 148

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 80 💬 最近回复 · 148

最新优先

“帮你 @xw2423 一下【在 souxunzhe (我在路边) 的大作中提到: 】 : 该怎么入手呢？ byr论坛有没有提供相应的API？或者通过其它方式利用现有的爬虫进行抓取？求好人解答。。[ema23]”

#1 楼《[求指导] 想做个网络爬虫之类的东西从byr论坛抓取想要的帖子》2012/4/2

“那和在每个目录里直接放makefile有什么不一样呢？只是因为cmake能根据平台不同生成对应的项目/makefile么？【在 FadeToBlack (烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫烫*&^) 的大作中提到: 】 : 最简单的说，工程结构类似 : root : root/lib_a : ...........…”

#2 楼《问下cmake和autotools》2011/9/13

“正则表达式是针对单行的，你这个跨行了吧分析网页内容还是用专门的html解析库比较好【在 fenixlee520 (流浪剑客) 的大作中提到: 】 : 想用正则匹配抓一段新浪新闻的html码，好进一步提取。 : <span id="news_con_1"> :  …”

#1 楼《匹配新浪新闻》2011/8/23

“哦……我只是担心如果都放一起的话不知道查询速度怎样，因为ip的数量不会太多，而对于每个ip，时间段(begin, end)会比较多一些，url请求也很多，所以希望对每个url请求，查找到当时的ip对应的mac越快越好(从目前的样例数据来看是这样) 【在 zzcc (Binux <足兆叉虫>) 的大作中提到: 】 : …”

#9 楼《[求助]问个索引设计的问题》2011/8/11

“有好的推荐没…… 我现在用leveldb，但是功能太简单了，像(ip，time)这种多个字段组合的key不知道怎样存储(难道都转成字符串一个接一个？) 【在 ox (小贝) 的大作中提到: 】 : 我觉得你可以换个思路，可以试试NoSQL来维护IP,MAC的KV映射”

#8 楼《[求助]问个索引设计的问题》2011/8/11

“再问一下方案2建表的问题……是(1)直接使用(ip, time)作为主键还是(2)使用ip作为主键，然后对每个ip新建一个表用于保存(time, ...)这些信息比较好呢？【在 zzcc (Binux <足兆叉虫>) 的大作中提到: 】 : 方案一：由于文件1是按时间顺序写入的，根据文件2的内容动态维护IP->M…”

#5 楼《[求助]问个索引设计的问题》2011/8/11

“谢谢bd……数据库大牛也会在这边出没吧，这边人气比数据库的好【在 zxsword (小绝) 的大作中提到: 】 : 不懂帮顶。。。话说论坛有@功能的话，@数据库大牛”

#2 楼《[求助]问个索引设计的问题》2011/8/9

“看到范围查询第一时间想到B+树…… 同一时间一个url可能被多个ip访问，一个ip在同一时间内也可能访问多个页面(延迟或代理？)。想到两种方法： 1. 以时间作为主键建主索引，对url和ip分别hash然后对两个hash结果再hash或map(为了ip和url一一对应)的结果作为主索引的value。或者可以用SHA-1…”

#1 楼《请教个百度笔试问题，麻烦大家了。》2011/7/1

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖Xer@Xer

Xer@Xer