返回信息流【 以下文字转载自 ParttimeJob 讨论区 】
发信人: Shmily1314 (【爱乐魂】玲珑の雪 【八卦帮】天水讼), 信区: ParttimeJob
标 题: 寻一简单的中文地址分词和匹配算法
发信站: 北邮人论坛 (Mon Aug 27 15:36:11 2012), 站内
现有一些中文地址,在查询地址时因为有些差异,比如“长沙市”和“长沙”,所
以需要分词和匹配,对于地址名下面举了几个例子,基本都可以结构化为“*省*市*区*
县*乡*村*机构*分机构”,会提供机构类型库,包括医院、药店、超市等,而且每个地
址后面都指明了省、市、区,看了下面的地址例子就知道不难。目前全部是湖南省的地
址,总共有3500条左右,分词之后匹配。
问题不难,可以作为分词算法练手的,对于湖南省的数据,是作为demo测试的,完
成500元,希望一两天内完成。做的好的会继续合作,有全国的数据大概50万条需要分
词匹配,全国的数据五千元。
有兴趣者站内联系。
地址名举例:
邵东县两市镇民众大药房 湖南区 湖南 邵阳
邵东县范家山镇洪桥中心大药房 湖南区 湖南 邵阳
邵阳市北塔区森林大药房 湖南区 湖南 邵阳
邵阳县黄亭市二门市部 湖南区 湖南 邵阳
邵阳市双清区新华天大药房 湖南区 湖南 邵阳
邵阳市佳欣大药房 湖南区 湖南 邵阳
新廉村卫生室 湖南区 湖南 邵阳
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11109同步于 2012/8/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
寻一简单的中文地址分词和匹配算法 (转载)
Shmily1314
2012/8/27镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。