-
Notifications
You must be signed in to change notification settings - Fork 2
/
note_new.txt
154 lines (126 loc) · 4.39 KB
/
note_new.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
####问题:“XX的”,头结点应该是“的”,还是其他?
####pos:中国传统医学是中华民族在长期的医疗、生活实践中不断积累,反复总结而逐渐形成的具有独特风格体系的医学体系。
####分块的模型有待提高#86.6%_46%=>95%_75%,歧义的分块
####分块 分析 model:model2为训练model,86.6%
###分块分析的错误:31:和,词性作用不大,标记一些实体
####块间分析 87.44,如何同结构词(上下文结构相似)合并
###分词:93.56#96.98,人名(已处理),数字包括汉字数字
###整体100句,平均长度20,6分钟
LP: 0.786
LR: 0.7748
F1: 0.7803
###全部1127句,6+(88-30)=64分钟
平均长度24.0词,平均字数(加标点)79.2字,F1=78.29%
LP: 0.7914
LR: 0.7746
F1: 0.7829
########
tag_model_dt.pickle
tag:58 feature321
注意:unary存在,单枝的树存在!!!!
TODO:
piece_parse改成一个了
tag:少了joint的tag语料
tag_错误很严重
tag+加上左边最右叶子和右边最左的叶子
###joint和piece很像???可否合并,除了一些特征
###########FRAG得特殊处理?????影响结果?!@!@!!@!
########get_node_new_tag:BP???
get_head_child:feature2,1,0改成3,2,1,0,1-15
piece_parse,S的处理和连续的单链三次
get_node_new_tag:BP???
piece_parse:get_node_new_tag,单链三次 (len(nl[i].son)!=1 or nl[i].son[0].isleaf):####hd
joint:需要加点特征,当前节点的其他头节点?
####增加到开头结尾的长度?
多叉树,放弃FRAG,考虑CC,etc,(pu、,cc) pu...pu,""
(NP-PN (NR 安徽省)(NR 宣城)(NN 地区)(NR 皖南)(NN 花鼓)(NN 戏剧团))
(NP (NN 财政)(NN 收支)(PU 、)(NN 预算)(NN 执行)(NN 情况))
假设存在一种类似分词的分块体系,将每个叶子节点看成字,每个块就是一个词,寻求一种方法能较好的将所有的句子进行分块。粒度合适
unix crf需要dos2unix, 文件\n结尾
分块:
LCP QP 的 是 《一些从句词:表明,发现。。。》
CTB_piece_model_1_8 -f 2....1跑不动!!!比1_6有更正以及更新
(ADVJ (JJ 副)) (NP (NP 县长))
子块parse:
93%
繁体字:於,麽,著,後,什麽
1:观察逗号的分布对binary的影响。以及“”左右符号切割的情况。
2:只有一个孩子的节点的处理,防止出现三个及以上的单穿的情况。S->NP===>S#NP
3:采用EI-NP,E-NP,B-VP,BI-VP的标记?
4:有个问题,评价时是于二叉树比,还是原来的数据?
5:crf概率大于0.85的可以直接使用,假如没有则进行beam search。
6:cost计算,利用句子生成的概率?
7:#####bootstraping,只将逗号作为分割集,然后分割后,寻找单独的一些词或者只有叶子节点的短语比如QP,作为新的分割的可行性?
8:数字为NUM,地名为LOC,人名为PER,机构为ORG,时间TIM
正确子块定义:正确的树中存在一个包含且仅包含该块中所有词的节点.
分词:将word2vec,的bigram计算?,词相邻?
4. Genres:
Newswire: [0001-0325, 0400-0454, 0500-0540, 0600-0885, 0900-0931, 4000-4050]
Magazine articles: [0590-0596, 1001-1151]
Broadcast news:[2000-3145, 4051-4111]
Broadcast conversations: [4112-4197]
Weblogs: [4198-4411]
Discussion forums: [5000-5558]
#1:tag
#2:S**1.2
bigram,计算子块概率
Newswire: [0001-0325, 0400-0454, 0500-0540, 0600-0885, 0900-0931, 4000-4050]
Magazine articles: [0590-0596, 1001-1151]
src/lda -est -alpha 0.5 -beta 0.1 -ntopics 100 -niters 1000 -savestep 200 -twords 20 -dfile models/ctb_5_repeat/trndocs.dat
old,system
LP: 0.7725
LR: 0.745
F1: 0.7585
ignore
LP: 0.8233
LR: 0.7983
F1: 0.8106
#debug_tag_bug(index bug),old_split=CTB_piece_model_1_8
beam=4,cost seconds: 2960.67485881=>738.45437789
LP: 0.7554
LR: 0.7036
F1: 0.7286
ignore
LP: 0.8107
LR: 0.7586
F1: 0.7838
beam=2
LP: 0.7466
LR: 0.6925
F1: 0.7186
ignore
LP: 0.8058
LR: 0.7512
F1: 0.7775
beam=1
LP: 0.7379
LR: 0.6743
F1: 0.7047
ignore
LP: 0.8012
LR: 0.7361
F1: 0.7673
beam=8
LP: 0.758
LR: 0.7067
F1: 0.7315
ignore
LP: 0.8108
LR: 0.7599
F1: 0.7845
beam=16,cost=839 s
LP: 0.7543
LR: 0.7008
F1: 0.7266
ignore
LP: 0.8069
LR: 0.7543
F1: 0.7797
#split_model=CTB_piece_model_6_24_len_5_BME
LP: 0.6947
LR: 0.6202
F1: 0.6553
ignore
LP: 0.7702
LR: 0.6931
F1: 0.7296