找回密码
 欢迎注册
查看: 36170|回复: 22

[原创] 数字与全角字符的匹配问题

[复制链接]
发表于 2010-9-9 14:47:00 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?欢迎注册

×
下面的数字是由一段话替换而成的。

这段话主要由常用汉字以及常用标点符号组成。

相同的全角字符对应相同的数字。

不同的全角字符对应不同的数字。

$-1$是换行标志。

0 1 2 3 4 5 -1
6 7 8 4 9 10 11 12 13 13 8 0 14 15 16 17 16 18 19 20 2 21 5 -1
22 23 24 25 26 8 14 27 10 28 29 30 31 8 32 33 34 35 5 -1
36 37 38 39 39 40 -1
41 42 43 44 44 45 46 35 47 1 8 48 49 10 50 51 52 53 54 55 20 56 57 5 -1
58 59 60 7 4 61 62 63 8 64 65 66 67 10 68 46 69 70 70 19 19 18 71 72 20 37 73 74 21 5 -1
41 75 72 37 67 7 76 8 27 10 50 51 77 64 65 78 79 80 81 8 82 83 84 85 10 82 86 87 88 89 90 91 20 5 -1
92 50 93 89 7 0 10 50 24 94 95 96 60 97 98 8 99 100 101 102 103 104 105 48 106 5 -1
36 37 38 39 107 108 5 40 -1
41 109 110 111 112 113 3 10 114 115 52 53 109 116 117 118 35 119 1 120 121 122 3 0 14 5 -1
7 76 8 123 124 46 37 125 86 126 127 20 128 129 10 130 51 131 1 60 132 133 61 134 135 5 -1
136 137 8 138 133 5 -1
28 29 139 140 2 141 104 142 8 4 5 -1
41 104 143 144 145 10 62 63 3 0 14 8 7 91 146 147 107 148 149 150 151 152 20 5 -1
41 52 53 153 3 27 114 121 122 0 14 5 -1
50 24 128 129 96 60 154 141 155 156 157 157 18 158 159 5 -1
160 161 38 39 39 40 -1
162 163 164 165 3 41 8 160 161 10 166 167 168 169 41 158 159 0 1 2 3 4 8 99 5 -1
160 161 38 48 1 170 4 171 5 40 -1
172 111 112 113 3 114 75 72 7 76 8 124 5 -1
36 37 38 173 174 17 10 41 175 87 88 176 20 177 178 82 179 39 40 -1
180 170 4 69 89 181 50 8 5 -1
160 161 38 39 182 183 40 -1
184 118 41 163 185 186 10 160 161 187 188 89 189 104 190 191 192 120 193 193 194 3 195 5 -1
160 161 38 68 46 39 196 91 20 183 40 -1
36 37 38 90 91 5 40 -1
160 161 38 197 39 198 41 37 199 5 40 -1
92 50 172 200 201 163 164 113 10 104 202 84 21 96 203 204 205 206 207 208 8 209 47 5 -1
210 108 211 212 213 8 160 161 47 214 27 10 28 29 148 89 215 216 215 217 120 8 218 219 5 -1
160 161 38 41 93 145 113 220 221 89 177 91 222 5 40 -1
223 224 37 225 10 162 226 89 177 91 69 227 118 37 141 178 82 20 5 -1
160 161 38 41 190 104 190 28 228 37 141 228 229 183 40 -1
36 37 38 39 230 5 40 -1
160 161 38 104 180 231 232 183 40 -1
36 37 38 231 233 20 5 40 -1
37 234 235 236 103 189 237 238 8 4 10 68 46 239 180 240 74 241 118 242 243 5 -1
160 161 38 210 163 141 39 244 245 5 40 -1
113 3 172 246 72 37 247 248 249 5 -1
160 161 38 163 89 227 118 8 250 251 252 5 40 -1
160 161 38 69 89 39 40 -1
160 161 38 253 254 41 255 8 98 256 5 40 -1
36 37 38 257 20 258 259 8 98 256 10 260 50 239 261 37 247 248 249 183 40 -1
41 262 202 172 246 244 41 8 247 47 10 50 51 52 53 263 195 121 122 160 161 8 264 5 -1
168 14 265 266 3 163 247 267 248 249 226 89 202 268 20 73 5 -1
104 202 269 241 236 196 270 271 272 8 265 273 21 113 10 163 209 8 274 147 96 189 275 276 5 -1
160 161 38 258 259 39 89 252 10 175 87 88 163 164 277 20 278 5 40 -1
36 37 38 230 10 89 17 5 40 -1
279 280 280 8 247 47 46 265 15 281 218 39 -1
282 28 174 41 283 87 284 96 20 178 82 285 61 84 202 8 4 286 10 287 109 288 289 290 96 291 292 293 8 286 76 294 295 98 296 5 -1
160 161 38 93 297 103 41 8 298 299 232 183 40 -1
36 37 38 163 164 113 21 41 69 145 228 10 300 93 297 103 41 8 298 299 232 183 40 -1
160 161 38 230 5 40 -1
46 7 4 130 15 39 -1
46 60 7 4 61 91 301 8 302 303 15 39 -1
162 148 89 168 37 67 27 304 305 258 259 8 306 307 39 -1
160 161 38 36 37 5 40 -1
36 37 38 9 47 5 40 -1
160 161 38 104 269 179 308 40 -1
36 37 38 53 309 5 40 -1
160 161 38 41 89 39 160 310 222 39 40 -1
172 311 312 18 313 43 20 314 195 5 -1
315 110 61 113 8 316 37 317 186 10 175 109 116 62 63 3 18 318 8 7 4 10 149 150 304 319 3 297 290 15 8 14 7 130 320 5 -1
46 160 161 48 51 61 2 8 4 52 147 151 152 20 146 147 5 -1
36 37 38 220 221 69 205 321 322 46 163 201 323 2 85 20 5 40 -1
160 161 38 41 8 298 299 39 40 -1
36 37 38 324 104 325 326 71 20 327 5 40 -1
160 161 38 298 299 39 40 -1
46 328 329 258 259 8 302 303 130 15 39 -1
60 328 329 258 259 8 4 61 330 331 39 -1
36 37 38 298 4 10 41 255 71 327 5 40 -1
332 8 310 333 334 335 336 337 0 8 133 61 338 339 10 157 157 18 340 293 341 342 5 -1
298 4 38 17 39 40 -1
298 4 38 230 343 40 -1

问:

能否将这些数字还原成原来的那段话?

如果不能,还需要多少数字样本?

datas.txt里有大量的与那段话有关的数字样本:

datas.rar (150.23 KB, 下载次数: 16)

这些数字样本是否足够解决问题?

如果不够,Fans将继续往datas.txt里添加新内容,直到能以较高的概率解决问题为止。

附:全角字符表

Z.TXT (46.2 KB, 下载次数: 10)

#####

Fans现在对这个问题很感兴趣。

希望哪位大牛也出一道相同类型的数字谜题给Fans破解。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 15:17:40 | 显示全部楼层
这一排排的“密文”前后是相关的吗?
原文是封情书还是什么的?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 15:30:24 | 显示全部楼层
看到“40”总是位于句尾,“5”位于句尾或“40”前,
猜测它们为标点符号,比如“40”代表“!”,而“5”代表“?”
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 15:35:53 | 显示全部楼层
150KB的输入数据应该足够破译了,当然仅仅帖子上贴出来的信息很难成功。
首先我们需要大量的样本数据,这个随便找一些文本文件就可以了。
其实我们可以统计每个字(包含标点)出现的频率。
然后对于高频率的字,继续统计它的下一个字出现的频率(可以看成是词语的分析),这样我们可以得出很多较高频率的词语。当然对于每个二字词语,我们可以继续分析三字甚至于四字词语。
此后我们就可以得到一个词语库以及其对应的频率。

然后对密文也可以进行类似的分析。
然后就是将两边词语(和字)均按概率排列,然后进行匹配搜索(优先搜索高概率的匹配数据)
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 15:40:00 | 显示全部楼层
从上面数据可以看出5,39,40等基本出现在句尾的应该是标点(句号,问号,感叹号等)
不过奇怪的是会出现一些组合标点,如39 39 40; 5 40; 39 40
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 16:24:26 | 显示全部楼层
怎么每句都那么短?
是聊天记录?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 16:27:01 | 显示全部楼层
5# mathe

有可能是全角的空格
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 16:30:32 | 显示全部楼层
6# 风云剑

有的还是挺长的,长短不一,可以肯定不是《孔雀东南飞》
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 16:34:15 | 显示全部楼层
有没有可能是全角的数字,全角的英文字符啊,比如:
Pi  =   3.1415926
pi         =           3.1415926
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 17:02:39 | 显示全部楼层
根据国家出版局抽样统计,汉字中最常用字560个,常用字807个,次常用字1033个。三者合计2400个,占一般书刊用字的99%
推荐


最常用的140个汉字(按使用频率从高到低的右序排列):
的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给名法间斯知世什两次使身者被高已亲其进此话常与活正感
(这140个汉字的使用频率之和为50)
其中:
最常用的5个汉字:
的一是了我
(这5个汉字的使用频率之和为10)

最常用的17个汉字:
的一是了我不人在他有这个上们来到时
(这17个汉字的使用频率之和为20)

最常用的42个汉字:
的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会
(这42个汉字的使用频率之和为30)
最常用的79个汉字:
的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之都好看起发当没成只如事把还用第样道想作种开
(这42个汉字的使用频率之和为30)
使用频率排名141-232的汉字(这92个汉字的频率之和为10)
见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许棱先口由死安写性马光白或住难望教命花结乐色
使用频率排名233-380的汉字(148个汉字,使用频率之和10)
更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴
382-500
奇管类未朋且婚台夜青北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算
501-631
算义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初养香停际致阳纸李纳验助激够严证帝饭忘趣支
632-1000
春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降夏困刘罪亡鞋健模败伴守挥鲜财孤枪禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿招释介烧误
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

小黑屋|手机版|数学研发网 ( 苏ICP备07505100号 )

GMT+8, 2024-4-30 16:58 , Processed in 0.050142 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表