KoichiYasuoka
/

phobert-base-vietnamese-ud-goeswith

Token Classification

dependency-parsing

Model card Files Files and versions

KoichiYasuoka commited on Dec 18, 2022

Commit

92f0b14

·

1 Parent(s): f5c22ed

model improved

Files changed (2) hide show

maker.py +16 -0
pytorch_model.bin +1 -1

maker.py CHANGED Viewed

@@ -21,6 +21,7 @@ class UDgoeswithDataset(object):
         if len(t)==10 and t[0].isdecimal():
           c.append(t)
         elif c!=[]:
           v=tokenizer([t[1].replace(" ","_") for t in c],add_special_tokens=False)["input_ids"]
           for i in range(len(v)-1,-1,-1):
             for j in range(1,len(v[i])):
@@ -28,6 +29,21 @@ class UDgoeswithDataset(object):
           y=["0"]+[t[0] for t in c]
           h=[i if t[6]=="0" else y.index(t[6]) for i,t in enumerate(c,1)]
           p,v=[t[3]+"|"+t[5]+"|"+t[7] for t in c],sum(v,[])
           if len(v)<tokenizer.model_max_length-3:
             self.ids.append([cls]+v+[sep])
             self.tags.append([dep]+p+[dep])

         if len(t)==10 and t[0].isdecimal():
           c.append(t)
         elif c!=[]:
+          d=list(c)
           v=tokenizer([t[1].replace(" ","_") for t in c],add_special_tokens=False)["input_ids"]
           for i in range(len(v)-1,-1,-1):
             for j in range(1,len(v[i])):
           y=["0"]+[t[0] for t in c]
           h=[i if t[6]=="0" else y.index(t[6]) for i,t in enumerate(c,1)]
           p,v=[t[3]+"|"+t[5]+"|"+t[7] for t in c],sum(v,[])
+          if len(v)<tokenizer.model_max_length-3:
+            self.ids.append([cls]+v+[sep])
+            self.tags.append([dep]+p+[dep])
+            label=set(sum([self.tags[-1],list(label)],[]))
+            for i,k in enumerate(v):
+              self.ids.append([cls]+v[0:i]+[msk]+v[i+1:]+[sep,k])
+              self.tags.append([dep]+[t if h[j]==i+1 else dep for j,t in enumerate(p)]+[dep,dep])
+          c=d
+          v=tokenizer([t[1].replace("_"," ") for t in c],add_special_tokens=False)["input_ids"]
+          for i in range(len(v)-1,-1,-1):
+            for j in range(1,len(v[i])):
+              c.insert(i+1,[c[i][0],"_","_","X","_","_",c[i][0],"goeswith","_","_"])
+          y=["0"]+[t[0] for t in c]
+          h=[i if t[6]=="0" else y.index(t[6]) for i,t in enumerate(c,1)]
+          p,v=[t[3]+"|"+t[5]+"|"+t[7] for t in c],sum(v,[])
           if len(v)<tokenizer.model_max_length-3:
             self.ids.append([cls]+v+[sep])
             self.tags.append([dep]+p+[dep])

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4b75a510688c84e07ecf781ed194dd71d70867edd9f6ae3fab0d93cead7b9fe
 size 538828593

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a53188b23df9f7933ce159ec14e1da5057afde959f352f3e17d90faf444024d
 size 538828593