people_daily-ner-pretreatment

人民日报命名实体识别数据集预处理程序，生成BMES标记的数据，并保留分词信息、词性标注信息。renminribao NER pretreatment.

注：忽然发现原来fastnlp已经给了人民日报的bio标注版本，下载地址：fastnlp人民日报ner数据集，后续只要进行bio到bmeso的处理就行了。如果用fastnlp提供的版本，直接把 bio2bmeso.py文件放到解压后的文件夹里，执行就可以得到目标文件。下面的记录是从人民日报原始文件处理得到bmeso标注文件的操作流程，很繁琐，还是推荐用fastnlp提供的版本，下面的操作就可以忽略了。但是实验发现了一个问题，使用fastnlp提供的人民日报，同样复旦出品的TENER及FLAT表现相当差劲，模型训练结束还不如瞎猜，也不知道为什么

获取数据集处理成conll格式

参考howl-anderson的教程，分别执行前两步编码格式更改与原始语料库解析

由conll格式数据生成char_ner.bmes文件

下载本项目中的conll2bmes.py文件，并放在howl-anderson的教程项目解压后的根目录，与其他py文件同级，执行conll2bmes.py文件，生成bmes编码的ner数据。conll2bmes文件在split_data.py与conll_to_char_crfppp.py文件的基础上进行修改，在此感谢howl-anderson同学。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README.md		README.md
bio2bmeso.py		bio2bmeso.py
conll2bmes.py		conll2bmes.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

people_daily-ner-pretreatment

获取数据集处理成conll格式

由conll格式数据生成char_ner.bmes文件

About

Releases

Packages

Languages

HuHsinpang/people_daily-ner-pretreatment

Folders and files

Latest commit

History

Repository files navigation

people_daily-ner-pretreatment

获取数据集处理成conll格式

由conll格式数据生成char_ner.bmes文件

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages