吴语协会

 找回密码
 开只户头

扫一扫,访问微社区

QQ登录

只需一步,快速开始

搜索
查看: 6848|回复: 20

[语音] 做吴语的语音合成,请教大家吴语的汉字和拼音问题

[复制链接]
发表于 2011-7-11 15:30:07 | 显示全部楼层 |阅读模式
现在开始做吴语的语音合成,就先拿了上海话开刀,但是首先要解决前段文本的问题,比如找人来念文本 eg:不管以前谁对谁错。给的文本就是这样的,然后各种人会念成“不管老早啥人对啥人错”或者“不管之前何人对何人错”。然后请教了一个湖州的同学,他说吴语里面是没有谁的,我拿普通话的文本让别人念就像拿出来中文文本让日本人念一样,不同人有不同的理解意思。

然后就像请问大家,上海话有像粤语一样自己的文本吗?还是就是只有普通话的文本然后按照自己的理解念呢?如果没有,那些用上海话讲的新闻难道也是给出来的是普通话的文本,然后播音员按照自己的理解意思随便读的吗?但是如果有的话,能不能帮忙找到一些这样的上海话的文本呢? 论坛里面我看到有一些拼音方案和字典,但是比如 我们只是说“我”
发成什么音,“们”发成什么音,而不会说发成“啊拉”,

怎么样让吴语能够写下来呢?现在有这样写下来的文本吗?
不然真的很难推广哎~~~~~

先谢谢大家了。
发表于 2011-7-11 15:39:09 | 显示全部楼层
能写字的地方写字,不方便处用拼音即可。
拼音现在的主要问题不是没有,而是太多。
 楼主| 发表于 2011-7-11 15:53:07 | 显示全部楼层
2# shenyileirob
谢谢回复了,对,我也找到了很多拼音方案,这个倒是好办,
但是我在做分析的时候是必须得处理汉字的,所以一定得把吴语写下来才行,但是就是找不到这样的文本。

但是我想能不能给出的是普通话的文本,然后发的是吴语,但是这样文本和语音就不对应了。
我想问吴语里面有大量语法是和普通话差异很大的吗?

能不能我给的就是普通话的文本,就让录音人按照这个来发不让其自由发挥,但是比如吴语里面没有“谁”,而我非得让他们来这样念,不做出来也不是上海话的语音合成了?
发表于 2011-7-11 16:09:47 | 显示全部楼层
我又一次看到了一个想玩训读的孩子……
发表于 2011-7-11 16:11:04 | 显示全部楼层
还是不太明白问题在哪里。为什么为了处理汉字,就必须用普通话文本?
大不了见字读字,如‘我们的’就读ngomentih之类。
单就口语来讲,吴语和普通话语法差异不算小。严格地说,按照西方语言学的观点本来就分属两种语言。至于书面语,文言是统一的;五四以来的书面白话替代了之前文言的作用。它们都是和口语脱节的。
 楼主| 发表于 2011-7-11 16:33:19 | 显示全部楼层
5# shenyileirob 谢谢了先,
为啥一定要有文本的问题,因为我做的是文本到语音的转换,也就是TTS,,没有文本也就不知道要发什么音啊。

我也不想给出的就是普通话的文本,毕竟里面有很多字和语法的问题,但是上海话的文本,我找了好久都没有找到。

文本啊,有木有啊,有木有啊,有木有啊
 楼主| 发表于 2011-7-11 16:36:44 | 显示全部楼层
4# 姬远清 难不成我有前辈和我一样?
关心,人家怎么训读的!!
发表于 2011-7-11 16:58:01 | 显示全部楼层
本帖最后由 keating 于 2011-7-11 17:00 编辑

没有你就自己写啊。说话人怎么说你就怎么写,写出来不就是文本了。

你想让吴语的文本,也按照汉语文本一个字一个字对应。这本来就是根本错误的逻辑。根本不存在的对应,你有什么好做的
发表于 2011-7-11 17:08:47 | 显示全部楼层
5# shenyileirob 谢谢了先,
为啥一定要有文本的问题,因为我做的是文本到语音的转换,也就是TTS,,没有文本也就不知道要发什么音啊。

我也不想给出的就是普通话的文本,毕竟里面有很多字和语法的问题,但是上 ...
ellishu 发表于 2011-7-11 16:33

查了一下TTS是什么,说的是给一段文字让机器读吧?
我觉得很奇怪,字的话最后要转化成拼音然后再处理,那么干吗不直接用拼音,顶多再加上修饰代码,告诉机器:此乃拼音,不必转了!
 楼主| 发表于 2011-7-11 17:18:31 | 显示全部楼层
8# keating
想问keating,也就是吴语的发音没有对应的文字?就是已经规范好的?


因为自己写的话肯定会乱写,瞎写,一般要处理8000句话,那就要写到N年叻啊
发表于 2011-7-11 17:22:19 | 显示全部楼层
吴语TTS最大的麻烦是变调。我一直在试验无损标调,现在看看起码就宁波话而言,这样的系统是完全可能的。下面是一段示例:
Nèitshàon kùjiōn, Ghòntù shìnfū. Shìn fen- Yih-Cín, di cih- Ghèn-Lù. Cin- sàe-kàon l ta- wú-wu, khon- Màecìn l yin- Èuyuh. Vahgho thìpāo, lònkuàon zhih- Nièu-Tēu tsy- shiù; zònjih dìlìn, Zhì+ Zyù shia- Jìn+ Vàe tsy- thah.
你不必知道字是什么,我可以保证熟练掌握的人(当然机器更有优势)照这个读绝对不会读得怪腔怪调。另外请注意这里我依然遵守了西文中分词连写的一般规则(须知词界和连读组是参差的),这样的高要求依然可以得到满足。我不相信上海的情况会比宁波更麻烦。
 楼主| 发表于 2011-7-11 17:26:05 | 显示全部楼层
9# shenyileirob 赞想法!

但是额的目标就是把汉字转换成语音,而且平时咱们碰到的汉字不可能夹杂着一堆拼音啊
不能说因为吴语里面我是拼音所以就用拼音夹杂汉字了,
不过倒是给我一点启发,我现在还没想出来

简单的例子就是:比如那个吴语拼音输入法,外地人用着难不仅因为拼音要重新学习,而且我也不知道在吴语里面我们叫做啊拉。如果输入的就是普通话的拼音,然后输出来的吴语的文字那就好了。

我现在的问题也相似,只是和上面情况正好相反,我希望输入的是普通话的汉字,输出来的是吴语的语音,当然这样是理想情况最好了。

恩,你的思路挺好的,我求更多拍,多拍我啊,求拍,求拍!!
发表于 2011-7-11 17:30:37 | 显示全部楼层
8# keating
想问keating,也就是吴语的发音没有对应的文字?就是已经规范好的?


因为自己写的话肯定会乱写,瞎写,一般要处理8000句话,那就要写到N年叻啊 ...
ellishu 发表于 2011-7-11 17:18


当然大部分吴语词都有对应的汉字(因为你中意于汉字,我就这么理解了)。但你的意思已经超越单词,到整段文字了。这就要涉及语法,怎么可能全吴语都一样。

什么叫乱写,你用上海话怎么读怎么写才是正写。
发表于 2011-7-11 18:54:56 | 显示全部楼层
4# 姬远清 难不成我有前辈和我一样?
关心,人家怎么训读的!!
ellishu 发表于 2011-7-11 16:36

训读是玩吴语人士初级阶段最容易犯的问题……
PS:吴语语音合成最麻烦的是连调,因为连调其实毫无实际限制,一个字是一个字的调,两个字三个字虽然有双字三字连调规律,但是到句子里再长的话有可能规律就无效了。我曾尝试过用V家的引擎来模拟上海话,事实证明效果很好,但是必须是一个字一个音素地人为确定。
发表于 2011-7-11 20:50:40 | 显示全部楼层
我希望输入的是普通话的汉字,输出来的是吴语的语音……ellishu 发表于 2011-7-11 17:26

太夸张了。机器翻译——语法功能分析(只有吴语需要这一步)——TTS,三步并作一步,野心也太大了些。
发表于 2011-7-11 21:03:05 | 显示全部楼层
TTS的目标是要把文字读出来,至于用词是否地道、语法是否正确,这跟TTS关系不大吧。吴语口语不用“谁”,不代表吴语不能读“谁”这个字。相反,你还要把“谁”这个字做进去。
吴语语音合成的难点恐怕还是多音字和连读变调的处理,例如“我现在的问题也相似”就涉及“问”读ven还是men、整句话连读组怎么切(切得不一样,声调大不同)。类似这样的例句合成成功了,那也算TTS基本成功了。所以即便没有吴语文本,问题不是很大。
以上说的是照着普通话文本直接用吴语读,要是转换成吴语口语说出来那就是一种语言翻译成另一种语言(尽管用的是同一种文字),就是让TTS把“China”读成“中国”。
输入普通话拼音,输出吴语文字,似乎没多大意义。输入普通话拼音,输出英语单词,这样一串单词能成句吗?貌似成句符合语法吗?而且普通话和吴语的词语也不是一一对应的,“阿拉”的用法就跟“我们”不完全一样。
发表于 2011-7-12 13:44:14 | 显示全部楼层
而且普通话和吴语的词语也不是一一对应的,“阿拉”的用法就跟“我们”不完全一样。砇玟旼 发表于 2011-7-11 21:03

比如宁波说ahlah launion,杭州似乎也可以说“我们老婆”'ngomen 'laubo,拿到北京、南京去就乱套了。
发表于 2011-7-23 07:08:21 | 显示全部楼层
吴语人称复数可以表示领属
发表于 2011-7-23 08:04:46 | 显示全部楼层
比如宁波说ahlah launion,杭州似乎也可以说“我们老婆”'ngomen 'laubo,拿到北京、南京去就乱套了。
shenyileirob 发表于 2011-7-12 13:44

普通话里不是也可以讲“我们领导”么,哪有人对外说“我的领导”的啊
发表于 2011-7-23 10:27:53 | 显示全部楼层
我们写成“我伲”或者“阿拉”就可以了。搞训读也可以,汉字又不是河南人专用的,更弗是普通话专用的,譬如【皆】读ze。
把每个汉字用吴语拼音固定,词汇也固定住,这样吴语书面写出来,用机器来读,应该可行。
实伢脑子里呱思路弗要绕牢普通话白话文去转,实伢自家写自家弗遂好哉?吴语词汇自家规范化一下子就好。
您需要登录后才可以回帖 登录 | 开只户头

本版积分规则

手机版|Archiver|吴语协会 Wu Chinese Society ( 网友言论不代表本站观点 )

GMT+8, 2019-12-11 18:53

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表