如何将拼音汉字表转化成汉字拼音表?
这个网站可以查看拼音汉字表:http://12988.net/www/tool/py/hzpyqb.htm
这张表是按拼音排列的,列出了每个拼音下的汉字。
但我想要的是按汉字排列的汉字拼音表,这张表列出的是每个汉字的所有读音。
我遇到的困难是这个网站……
http://12988.net/www/tool/py/hzpyqb.htm
……里的内容即不允许复制粘贴,也不允许查看网页源代码。
我也找不到比这个网站更齐全的表格了。
我目前能想到的办法是,屏幕截图,然后OCR。
但OCR对生僻字的识别率太低。
你们有什么更好的办法吗?
可以用wget命令抓下来
然后找到
<BODY ****>
把****对应的内容全部删除,再本地打开就可以复制了
不过部首的发音好像错了,比如最后一个是左耳朵,列在zuo的发音了 我试了下, 可以查看页面源码,也可以保存为html页面. 把编码转化成utf8, 接下来就是 字符串处理了.
data=Import<>"汉字拼音全表.html","Text"];
processed=StringCases;
Export<>"拼音.txt",Flatten],#}&/@Characters]],{p,processed}],1],"Table"] 事实上. 我发现 这个页面 有很多问题,玉字 被识别成了王字.也就是说, 这个页面 应该也是从某个OCR软件 导出来的结果,你再来个 二重的OCR,恐怕只会引入更多的问题.
如果是要获取 拼音跟汉字的 数据,可以在GitHub上找找, 我找到了这个:https://github.com/mozillazg/pinyin-data 我知道python有一个汉字转拼音的包
以前用得很熟
现在只记得from pypinyin import pinyin了…… 这个网站是可以查到源码,而且解析起来很简单,每一个<p>标签标示了一个拼音和对应的汉字,比如下面这个例子:
<p class="MsoNormal">
<span lang="EN-US">bei</span>
<span style="font-family: 宋体">被北倍杯背悲备碑卑贝辈钡焙狈惫臂褙悖蓓鹎鐾呗邶鞴孛陂碚俻俾偝偹備僃哱唄喺垻埤怫愂憊揹昁杮柸桮梖棑棓椑波牬犕狽珼琲痺盃禙箃糒苝茀菩萆萯葡藣蛽蜚襬誖諀貝跋軰輩鄁鉳鋇錍鐴骳鵯</span>
<span lang="EN-US">
</span></p>
先把拼音到汉字的映射得到(array),然后做一个reverse index就可以了(map)。
当然,前提是这个网页给出的信息是正确的。 .·.·. 发表于 2022-2-14 13:27
我知道python有一个汉字转拼音的包
以前用得很熟
现在只记得from pypinyin import pinyin了……
pypinyin挺好用的:b:
页:
[1]