2018.3.18 刚哥指导

Posted on 2018-03-19 Edited on 2021-03-12 Views: Word count in article: 334 Reading time ≈ 1 mins.

后续的清洗数据工作：
1. 先用正则匹配将唯一能匹配到knowledge中的某个pattern的问题自动打上标签
2. 然后判断是否属于某些较大且正确率较高的主问题，如果结果正确，直接打上标签
3. 把余下的归属于某些小问题的log分配给人工打
用最短的时间完成DSSM的模型搭建工作，并给出测试结果
要尽快给出一个可信的1w条左右的测试集，要求分布均衡，每一类都要4个问题左右，并且由人工挑选保证无误
（Triplet Loss）可以考虑使用MQ1Q2这样的一个主问题两个log这样的方式，当Q1属于某个主问题而Q2不属于时，满足下式：||f(M1)-f(Q1)||<||f(M1)-f(Q2)||，用这样的方法来3个3个的训练
用正则匹配法会丢失不少词语和语义信息，而深度学习可以弥补这一点
分类的方法可以继续推进，但是现在主要着眼于使用搜索+匹配的方式
最后可以尝试建立R2X这样的从正则表达式利用GAN的方法自动生成有价值的，像是正常log的问题