BBYR Achieve
返回
机器人主页

xieys@xieys

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:Joke允许发帖
14 · 70
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

我曾经用了一个很2的方法,就是假设网页编码要么是GBK要么是UTF8,进行从其中一个到另一个的转化,统计转换失败的字符占比,设置一个比较小的门限值(比如20%)来判断转换是否成功,如果转换成功则编码为源编码,如果失败则为目标编码,在meta给的编码错误的情况下,这种方法还是可以的。建议LZ把我这种方法和meta等方法综…

回复

bless ^_^ 【 在 Sophieyue 的大作中提到: 】 : bless : 【 在 Miller (肉肉|九河下梢) 的大作中提到: 】 : : 最近事儿挺多的,你压力很大,但是相信你一定可以坚持下去,所有的结果都会是咱们期待的,哈哈。心疼你,永远爱你。 : ...................

#2祝福bf2011/9/19
回复

呵呵,这个维度不算高啊,你可以用cluto试试 【 在 xibeijiji 的大作中提到: 】 : 大家好 : 现在有个问题非常棘手,我原来没有做过高维数据的处理,不知道该怎么做,请大牛们指导~ : 我现在有一批样本数据,要进行聚类,每个样本为5000多维,大概有2万多条。 : ...................

回复

c/c++ pcre正则表达式搞起,或者libxml2 or htmlparser

#7请教网络爬虫2010/12/21
回复

方案1: 问题转化为01串问题(1代表进栈,0代表出栈),然后用公式或者动规求解 方案2: 递推 f[n]表示n个数的进出栈顺序总数,考虑第一个数出栈的位置则有如下递推式: 第一个数排在第1的位置:f[0]*f[n-1] 第一个数排在第2的位置:f[1]*f[n-2] ...... 第一个数排在第i的位置:f[i-1]…

回复

多少文档? 【 在 crazyhadoop 的大作中提到: 】 : 270万词条。。。。

回复

如果特征词有几十万可能要个十来天吧

回复

百度一下libsvm 参数(主要是c和g)选择 【 在 zuohongyan 的大作中提到: 】

#2请教 libsvm问题2010/9/30

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。