2018.3.18 刚哥指导
2018.3.18 刚哥指导
-
后续的清洗数据工作:
- 先用正则匹配将唯一能匹配到knowledge中的某个pattern的问题自动打上标签
- 然后判断是否属于某些较大且正确率较高的主问题,如果结果正确,直接打上标签
- 把余下的归属于某些小问题的log分配给人工打
-
用最短的时间完成DSSM的模型搭建工作,并给出测试结果
-
要尽快给出一个可信的1w条左右的测试集,要求分布均衡,每一类都要4个问题左右,并且由人工挑选保证无误
-
(Triplet Loss)可以考虑使用MQ1Q2这样的一个主问题两个log这样的方式,当Q1属于某个主问题而Q2不属于时,满足下式:||f(M1)-f(Q1)||<||f(M1)-f(Q2)||,用这样的方法来3个3个的训练
-
用正则匹配法会丢失不少词语和语义信息,而深度学习可以弥补这一点
-
分类的方法可以继续推进,但是现在主要着眼于使用搜索+匹配的方式
-
最后可以尝试建立R2X这样的从正则表达式利用GAN的方法自动生成有价值的,像是正常log的问题