xieys@xieys
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“我曾经用了一个很2的方法,就是假设网页编码要么是GBK要么是UTF8,进行从其中一个到另一个的转化,统计转换失败的字符占比,设置一个比较小的门限值(比如20%)来判断转换是否成功,如果转换成功则编码为源编码,如果失败则为目标编码,在meta给的编码错误的情况下,这种方法还是可以的。建议LZ把我这种方法和meta等方法综…”
“bless ^_^ 【 在 Sophieyue 的大作中提到: 】 : bless : 【 在 Miller (肉肉|九河下梢) 的大作中提到: 】 : : 最近事儿挺多的,你压力很大,但是相信你一定可以坚持下去,所有的结果都会是咱们期待的,哈哈。心疼你,永远爱你。 : ...................”
“呵呵,这个维度不算高啊,你可以用cluto试试 【 在 xibeijiji 的大作中提到: 】 : 大家好 : 现在有个问题非常棘手,我原来没有做过高维数据的处理,不知道该怎么做,请大牛们指导~ : 我现在有一批样本数据,要进行聚类,每个样本为5000多维,大概有2万多条。 : ...................”
“c/c++ pcre正则表达式搞起,或者libxml2 or htmlparser”
“方案1: 问题转化为01串问题(1代表进栈,0代表出栈),然后用公式或者动规求解 方案2: 递推 f[n]表示n个数的进出栈顺序总数,考虑第一个数出栈的位置则有如下递推式: 第一个数排在第1的位置:f[0]*f[n-1] 第一个数排在第2的位置:f[1]*f[n-2] ...... 第一个数排在第i的位置:f[i-1]…”
“多少文档? 【 在 crazyhadoop 的大作中提到: 】 : 270万词条。。。。”
“如果特征词有几十万可能要个十来天吧”
“百度一下libsvm 参数(主要是c和g)选择 【 在 zuohongyan 的大作中提到: 】”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。