找回密码
 欢迎注册
查看: 1998|回复: 6

[求助] 如何将拼音汉字表转化成汉字拼音表?

[复制链接]
发表于 2022-2-8 23:22:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?欢迎注册

×
这个网站可以查看拼音汉字表:

http://12988.net/www/tool/py/hzpyqb.htm

这张表是按拼音排列的,列出了每个拼音下的汉字

但我想要的是按汉字排列的汉字拼音表,这张表列出的是每个汉字的所有读音

我遇到的困难是这个网站……

http://12988.net/www/tool/py/hzpyqb.htm

……里的内容即不允许复制粘贴,也不允许查看网页源代码。

我也找不到比这个网站更齐全的表格了。

我目前能想到的办法是,屏幕截图,然后OCR。

但OCR对生僻字的识别率太低。

你们有什么更好的办法吗?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2022-2-9 09:44:03 | 显示全部楼层
可以用wget命令抓下来
然后找到
<BODY ****>
把****对应的内容全部删除,再本地打开就可以复制了

不过部首的发音好像错了,比如最后一个是左耳朵,列在zuo的发音了
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2022-2-9 10:26:15 | 显示全部楼层
我试了下, 可以查看页面源码,也可以保存为html页面. 把编码转化成utf8, 接下来就是 字符串处理了.

  1. data=Import[NotebookDirectory[]<>"汉字拼音全表.html","Text"];
  2. processed=StringCases[data,">"~~(x:WordCharacter..)~~"</span><span style="font-family: 宋体">"~~(y:WordCharacter..)~~"</span>"->{x,y}];
  3. Export[NotebookDirectory[]<>"拼音.txt",Flatten[Table[{p[[1]],#}&/@Characters[p[[2]]],{p,processed}],1],"Table"]
复制代码

汉字拼音全表.html

135.89 KB, 下载次数: 3, 下载积分: 金币 -1 枚, 经验 1 点, 下载 1 次

拼音.zip

67.69 KB, 下载次数: 2, 下载积分: 金币 -1 枚, 经验 1 点, 下载 1 次

评分

参与人数 1威望 +3 金币 +4 贡献 +3 经验 +3 鲜花 +3 收起 理由
KeyTo9_Fans + 3 + 4 + 3 + 3 + 3 很给力!

查看全部评分

毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2022-2-9 10:47:40 | 显示全部楼层
事实上. 我发现 这个页面 有很多问题,  玉字 被识别成了王字.  也就是说, 这个页面 应该也是从某个OCR软件 导出来的结果,  你再来个 二重的OCR,恐怕只会引入更多的问题.

如果是要获取 拼音跟汉字的 数据,  可以在GitHub上找找, 我找到了这个:https://github.com/mozillazg/pinyin-data
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2022-2-14 13:27:27 | 显示全部楼层
我知道python有一个汉字转拼音的包
以前用得很熟
现在只记得from pypinyin import pinyin了……
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2022-2-14 19:20:20 | 显示全部楼层
这个网站是可以查到源码,而且解析起来很简单,每一个<p>标签标示了一个拼音和对应的汉字,比如下面这个例子:
<p class="MsoNormal">
<span lang="EN-US">bei</span>
<span style="font-family: 宋体">被北倍杯背悲备碑卑贝辈钡焙狈惫臂褙悖蓓鹎鐾呗邶鞴孛陂碚俻俾偝偹備僃哱唄喺垻埤怫愂憊揹昁杮柸桮梖棑棓椑波牬犕狽珼琲痺盃禙箃糒苝茀菩萆萯葡藣蛽蜚襬誖諀貝跋軰輩鄁鉳鋇錍鐴骳鵯</span>
<span lang="EN-US">
</span></p>
先把拼音到汉字的映射得到(array),然后做一个reverse index就可以了(map)。
当然,前提是这个网页给出的信息是正确的。

评分

参与人数 1金币 +20 收起 理由
gxqcn + 20 首帖奖励,欢迎常来。

查看全部评分

毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2022-2-14 19:27:38 | 显示全部楼层
.·.·. 发表于 2022-2-14 13:27
我知道python有一个汉字转拼音的包
以前用得很熟
现在只记得from pypinyin import pinyin了……

pypinyin挺好用的
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

小黑屋|手机版|数学研发网 ( 苏ICP备07505100号 )

GMT+8, 2024-5-3 09:08 , Processed in 0.053858 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表