2018.3.18 刚哥指导

2018.3.18 刚哥指导

  • 后续的清洗数据工作:

    1. 先用正则匹配将唯一能匹配到knowledge中的某个pattern的问题自动打上标签
    2. 然后判断是否属于某些较大且正确率较高的主问题,如果结果正确,直接打上标签
    3. 把余下的归属于某些小问题的log分配给人工打
  • 用最短的时间完成DSSM的模型搭建工作,并给出测试结果

  • 要尽快给出一个可信的1w条左右的测试集,要求分布均衡,每一类都要4个问题左右,并且由人工挑选保证无误

  • (Triplet Loss)可以考虑使用MQ1Q2这样的一个主问题两个log这样的方式,当Q1属于某个主问题而Q2不属于时,满足下式:||f(M1)-f(Q1)||<||f(M1)-f(Q2)||,用这样的方法来3个3个的训练

  • 用正则匹配法会丢失不少词语和语义信息,而深度学习可以弥补这一点

  • 分类的方法可以继续推进,但是现在主要着眼于使用搜索+匹配的方式

  • 最后可以尝试建立R2X这样的从正则表达式利用GAN的方法自动生成有价值的,像是正常log的问题