Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

中文数据集 #22

Open
lzf00 opened this issue Jul 11, 2022 · 6 comments
Open

中文数据集 #22

lzf00 opened this issue Jul 11, 2022 · 6 comments

Comments

@lzf00
Copy link

lzf00 commented Jul 11, 2022

你好,请问做过中文数据集的实验吗,我想用自己的中文金融数据对模型做测试,不知道能否适用?
我的想法是bert模型替换为Chinese—bert ,然后数据是这样的:【千方科技:重庆蚂蚁消费金融有限公司开业】千方科技公告,公司近日获悉,中国银行保险监督管理委员会重庆监管局下发《重庆银保监局关于重庆蚂蚁消费金融有限公司开业的批复》,批准重庆蚂蚁消费金融有限公司开业。2021年6月4日,蚂蚁消金在重庆正式成立。公司参与蚂蚁消金的设立,出资金额为人民币5.608亿元。#### #### ####[([1, 4], [124, 132], 'POS')]

@chiayewken
Copy link
Owner

你好,换Chinese- BERT 我没试过,你可以试一试。
对于输入格式,数据处理要求每个单词之间应该有一个空格

@lzf00
Copy link
Author

lzf00 commented Sep 15, 2022

你好,换Chinese- BERT 我没试过,你可以试一试。 对于输入格式,数据处理要求每个单词之间应该有一个空格

你好,我用自己的中文数据集实现了模型的训练,9个epoch,但是不知道为什么关系和实体的F1分数都为0;
image
第二个问题是训练完模型,我的中文数据集会被改为unicode编码(我认为是读入的编码问题),但是你给的英文例子不会被改变,当我自己用脚本把数据集的unicode码变为中文时,运行验证脚本时,还是会被变为unicode,我不知道如何改;
并且验证的时候会读取数据失败,显示数据集空(可能是第二个问题引起的错误)

@chiayewken
Copy link
Owner

不好意思,我没有试过中文数据,你能提供一些数据样本吗?

@lzf00
Copy link
Author

lzf00 commented Sep 27, 2022

不好意思,我没有试过中文数据,你能提供一些数据样本吗?

好的,发到你的github主页显示的邮箱了

@sun211-alt
Copy link

你好,请问用中文数据效果好吗?

@KouRouFly
Copy link

您好,问题解决了吗

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants