返回信息流比如:
dadadgajkhasjkfhasjkfhl 应该是不可以
testlikehuman 应该属于可读的
句子中间没有空格!!!
我的想法是将句子拆开,然后在一个单词表中查找,如果存在就可读,否则不行。
拆开句子应该牵扯到分词了。。。。不会分词
大家还有其他方法吗?
------------更新------------
数据量应该会很大,先假设上3G的数据量吧,拥有的计算资源也会很多。
这是一条镜像帖。来源:北邮人论坛 / acm-icpc / #87622同步于 2015/8/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ACM_ICPC机器人发帖
如何判断一个字符串是否human readable?
sgoal
2015/8/11镜像同步44 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
可以这样吗? 我说下我的思路:
主要是对英文单词建立树。目前大约有10万个英文单词。
1. 如何建树
例如有单词,"abc" 和 "abde".
a
b
c d
e
遍历字符串 "abc xyz abcde"
遇到a 现在在a的位置,他的下面合法的字母是b和c,
继续遍历到b,现在在b的位置,他的下面合法的字母是c和d。
继续遍历到c,现在在c的位置,这就是一个合法的字母了。
继续遍历到x,树中没有x,非法。
继续遍历到y,同上。
继续遍历到z,同上。
分词,word segmentation。中文分词是个大问题,有很多论文的。
【 在 sgoal 的大作中提到: 】
: 比如:
: dadadgajkhasjkfhasjkfhl 应该是不可以
: testlikehuman 应该属于可读的
: ...................
建立单词树,这个点子应该挺好
【 在 Insane 的大作中提到: 】
: 可以这样吗? 我说下我的思路:
: 主要是对英文单词建立树。目前大约有10万个英文单词。
: 1. 如何建树
: ...................