找回密码
 欢迎注册
楼主: KeyTo9_Fans

[原创] 数字与全角字符的匹配问题

[复制链接]
发表于 2010-9-9 17:07:47 | 显示全部楼层
看起来是遇到一个没替换的字就用数字替换一下,然后数字加1。 我统计完成了datas.txt,一共有2000多个字符。以下似乎最常用到的30个。 38 7013 0.040951 40 7012 0.040945 5 6968 0.040688 37 5458 0.031871 8 4946 0.028881 39 4919 0.028723 36 3612 0.021091 10 3251 0.018983 89 3084 0.018008 41 2836 0.016560 20 2831 0.016531 104 2479 0.014476 990 2157 0.012595 4 1829 0.010680 163 1747 0.010201 183 1741 0.010166 298 1727 0.010084 162 1495 0.008730 46 1477 0.008625 21 1384 0.008082 164 1324 0.007731 47 1134 0.006622 206 1128 0.006587 17 1084 0.006330 107 1069 0.006242 3 1065 0.006219 69 1064 0.006213 172 1018 0.005944 118 986 0.005758 202 964 0.005629

1.txt

34.89 KB, 下载次数: 4, 下载积分: 金币 -1 枚, 经验 1 点, 下载 1 次

评分

参与人数 1贡献 +3 收起 理由
gxqcn + 3 辛苦了。

查看全部评分

毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2010-9-9 17:18:58 | 显示全部楼层
9# wayne 都有。但是很稀少。主要还是文字和标点。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-9 17:25:45 | 显示全部楼层
36 37 38 出现频率太大了,占了1/3! 要是知道这文字的背景就好了。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-10 11:33:42 | 显示全部楼层
不知道有没有现成的Viterbi算法的实现。用它加上词频的统计应该可以解决这个问题
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-10 12:16:20 | 显示全部楼层
14# mathe 呵呵,隐马尔科夫: HMM 我以前搞过语音识别。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-10 12:30:16 | 显示全部楼层
就是不知样本够不够。统计数据表明,有大量的字符只出现过一次。这样,单纯的字频就没太大意义了,必须考虑词频。汉语的词频统计表哪里有?做输入法的公司会有,但属于机密文档。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2010-9-10 12:31:29 | 显示全部楼层
16# 风云剑 仅仅统计词频还远远不够吧
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2013-5-13 00:12:09 | 显示全部楼层
我收集了大约$4$MB的语料。 这些语料来自$13$个txt文件。 这些txt文件是从$5$个小说网站上收集的。 我对这些语料进行了统计分析,得到了这些语料的字频表: 字频表.txt (28.9 KB, 下载次数: 2) 和词频表: 词频表1.rar (242.83 KB, 下载次数: 1) 词频表2.rar (233.2 KB, 下载次数: 1) 如果就拿上面的字频表和词频表进行对照,是否足以破译$1$楼的数据? 如果仍不足以破译,那么还需要做哪些改进才足以破译? ##### 再次尝试下载$1$楼的文件,提示说下载失败…… 幸好我的电脑里还留了$1$份,以备后患。 这是$1$楼的数据: datas.rar (150.65 KB, 下载次数: 1)
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2013-5-13 00:36:17 | 显示全部楼层
应该要设计语义分析的算法,能自动分析语法和语句的错误,能理解聊天的内容 不然需要人工核对破译出的聊天记录
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
 楼主| 发表于 2013-5-13 01:22:02 | 显示全部楼层
对于datas.txt, 如果只看【字频表.txt】, 把 频数最大的数字 与 频数最大的字 匹配 频数第$2$大的数字 与 频数第$2$大的字 匹配 频数第$3$大的数字 与 频数第$3$大的字 匹配 …… 频数第$n$大的数字 与 频数第$n$大的字 匹配 那么匹配结果如下: —————————— 对过生上她。 示李一她达“呢汗激激一对张却喃么喃道讲在生你。 亡泣走奏拦一张成“还呀产智一岁廷管幸。 不了,是是的 我助大待待邹人幸到过一校主“下可已相犹别在入盒。 黎百被李她话塔甚一级外动车“妈人…七七讲讲道手天在了表然你。 我先天了车李该一成“下可、级外导准;店一以梦看小“以如情意”干己在。 次下出”李对“下走此语园被巧水一须豫短制心这太校终。 不了,是那空。的 我但边公点地上“乎师已相但斯北也幸巴过认唇信上对张。 李该一则慌人了察如误祸在早独“什可精过被办雨话排慕。 河洞一命雨。 还呀雅院生要这啦一她。 我这跳几中“塔甚上对张一李己妖位那面脱及净拉在。 我已相贵上成乎唇信对张。 下走早独园被言要定问德德道裂色。 后无,是是的 着他就领上我一后无“陌绿!难我裂色对过生上她一须。 后无,校过亮她听。的 ?公点地上乎先天李该一慌。 不了,间事么“我很情意于在思会以自是的 起亮她…”种下一。 后无,是记来的 许也我他盯和“后无直住”样这想久忘认完完厉上家。 后无,妈人是常己在来的 不了,干己。的 后无,坐是故我了台。的 次下?妲头他就地“这里看你园口望好说摸抬一都到。 时空异映接一后无到医成“还呀面”书见书近认一跟喜。 后无,我出中地些半”思己安。的 伤美了收“着进”思己…’也了要会以在。 后无,我想这想还孩了要孩何来的 不了,是而。的 后无,这起等:来的 不了,等疑在。的 了气鲁微心样追花一她“妈人多起全然轻也秘确。 后无,时他要是玦吧。的 地上?柔天了查差赶。 后无,他”’也一←旧能。的 后无,…”是的 后无,吉怔我啊一水牙。的 不了,英在界且一水牙“阿下多称了查差赶来的 我往里?柔玦我一查到“下可已相灵家唇信后无一林。 !张让第上他查哥差赶进”里铁在表。 这里知轻微常般泛荒一让婷你地“他都一双位园样万站。 后无,界且是”能“很情意他就新在学。的 不了,而“”么。的 选劫劫一查到人让却措跟是 儿还事我感情断园在会以脸话看里一她叶“加但老们平园顿刚声一叶该行欲水吞。 后无,出高心我一个容:来的 不了,他就地你我…中孩“得出高心我一个容:来的 后无,而。的 人李她什却是 人被李她话己腹一快回却是 着面”!了车成腾忙界且一玲猛是 后无,不了。的 不了,达到。的 后无,这知自只的 不了,相牢。的 后无,我”是后离安是的 ?洗浅道射大在厚家。 置边话地一丝了件和“很但斯塔甚上道吗一李她“脱及腾辆上高平却一张李什奇。 人后无校可话生一她已位净拉在妖位。 不了,些半…好落十人他头抱生小在。的 后无,我一个容是的 不了,华这少真手在子。的 后无,个容是的 人执惑界且一快回什却是 被执惑界且一她话龙椅是 不了,个她“我啊手子。的 部一离提深错歌员对一雨话悔吸“德德道体声谱—。 个她,么是的 个她,而去的 —————————— 所以,只看【字频表.txt】的匹配结果很糟糕。 如果将词频表也利用起来,那么匹配结果会有多好呢? 我有空会再次出马,尝试利用词频表进行匹配,请大家静候佳音~
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

小黑屋|手机版|数学研发网 ( 苏ICP备07505100号 )

GMT+8, 2024-11-23 20:17 , Processed in 0.026432 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表