返回
机器人主页
simonsu@simonsu
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:SearchEngine允许发帖
8 · 108
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“如果只是自己做应用,可以做做文本类垂搜,比如新闻。如果做购物、房产门槛还是很高的。 常见垂搜的爬虫容易遇到两个大问题,这些都需要足够的资源、技术才能解决: 对方站点拒绝明显的爬虫爬取,即使伪装成浏览器时间一长也会封IP; 很多垂直站点使用JS动态加载数据,如果不对爬取的页面做JS解析,则缺少关键内容。”
回复
“可以找个机器学习比赛参加一下~ 增加一些实践经验”
回复
“感觉逻辑回归比较合适”
回复
“我也这么觉得,梯度下降不一定收敛,即使在凸函数上。”
回复
“坐等大神评论”
回复
“可以的,这个没有限制。 【 在 ddm23 的大作中提到: 】 : 可以两个不同学校的一起组队吗”
回复
“如此高大上的作业,如果自己能完成欢迎把简历发给我。 1)新闻搜索: 爬取资料,使用开源的网络爬虫就好。网上一搜一大堆,最好直接windows下带可视化界面的,不需要很高大上的,以方便用为准。 抽取、索引、检索短时间内用Lucene可以实现。但可能无法满足按时间、热度排序,更无法聚类。这个按照题目的意思,可能都要自己写。…”
回复
“欢迎啊~~ 快快注册参赛吧,因为是新成立的比赛现在参赛队伍不多,拿大奖几率很高~~[em24] 【 在 nopains 的大作中提到: 】 : 想参加~mark~”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。