如何将拼音汉字表转化成汉字拼音表？

KeyTo9_Fans · 发表于 2022-2-8 23:22:31

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？欢迎注册

×

这个网站可以查看拼音汉字表：

http://12988.net/www/tool/py/hzpyqb.htm

这张表是按拼音排列的，列出了每个拼音下的汉字。

但我想要的是按汉字排列的汉字拼音表，这张表列出的是每个汉字的所有读音。

我遇到的困难是这个网站……

http://12988.net/www/tool/py/hzpyqb.htm

……里的内容即不允许复制粘贴，也不允许查看网页源代码。

我也找不到比这个网站更齐全的表格了。

我目前能想到的办法是，屏幕截图，然后OCR。

但OCR对生僻字的识别率太低。

你们有什么更好的办法吗？

mathe · 发表于 2022-2-9 09:44:03

可以用wget命令抓下来
然后找到
<BODY ****>
把****对应的内容全部删除，再本地打开就可以复制了

不过部首的发音好像错了，比如最后一个是左耳朵，列在zuo的发音了

wayne · 发表于 2022-2-9 10:26:15

我试了下, 可以查看页面源码,也可以保存为html页面. 把编码转化成utf8, 接下来就是字符串处理了.

data=Import[NotebookDirectory[]<>"汉字拼音全表.html","Text"];
processed=StringCases[data,">"~~(x:WordCharacter..)~~""~~(y:WordCharacter..)~~""->{x,y}];
Export[NotebookDirectory[]<>"拼音.txt",Flatten[Table[{p[[1]],#}&/@Characters[p[[2]]],{p,processed}],1],"Table"]

复制代码

wayne · 发表于 2022-2-9 10:47:40

事实上. 我发现这个页面有很多问题, 玉字被识别成了王字. 也就是说, 这个页面应该也是从某个OCR软件导出来的结果, 你再来个二重的OCR,恐怕只会引入更多的问题.

如果是要获取拼音跟汉字的数据, 可以在GitHub上找找, 我找到了这个:https://github.com/mozillazg/pinyin-data

.·.·. · 发表于 2022-2-14 13:27:27

我知道python有一个汉字转拼音的包
以前用得很熟
现在只记得from pypinyin import pinyin了……

capiggue · 发表于 2022-2-14 19:20:20

这个网站是可以查到源码，而且解析起来很简单，每一个标签标示了一个拼音和对应的汉字，比如下面这个例子：

bei
被北倍杯背悲备碑卑贝辈钡焙狈惫臂褙悖蓓鹎鐾呗邶鞴孛陂碚俻俾偝偹備僃哱唄喺垻埤怫愂憊揹昁杮柸桮梖棑棓椑波牬犕狽珼琲痺盃禙箃糒苝茀菩萆萯葡藣蛽蜚襬誖諀貝跋軰輩鄁鉳鋇錍鐴骳鵯


先把拼音到汉字的映射得到（array），然后做一个reverse index就可以了（map）。
当然，前提是这个网页给出的信息是正确的。

capiggue · 发表于 2022-2-14 19:27:38

.·.·. 发表于 2022-2-14 13:27
我知道python有一个汉字转拼音的包
以前用得很熟
现在只记得from pypinyin import pinyin了……

pypinyin挺好用的

账号		自动登录	找回密码
密码			欢迎注册

[求助] 如何将拼音汉字表转化成汉字拼音表？

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

评分

评分