打造一款财经资讯标签系统难在哪
知行思新
读完需要
4分钟速读仅需2分钟
最近为了思考标签系统的未来产品规划,一方面收集分析来自各个渠道的反馈与建议;另一方面给了我一次机会,重新回到原点反思标签系统的本质......
1
文本榨汁机
「标签系统」就像一台文本榨汁机,塞入一篇文本资讯,输出从该资讯中浓缩的精华——标签。换作技术术语,这台文本「榨汁机」是从非结构化文本数据中,提取出半结构化的标签数据。
拆开这台文本榨汁机,里面的部件就两块:标签体系数据+自动打标算法逻辑
标签系统就是一台「文本榨汁机」
2
资讯的媒婆
文本资讯变为半结构化标签后又有什么意义?
咱们暂且放过半结构化标签,先来看看源远流长的结构化数据(咱们日常最熟悉的表格),每条记录描述了一个实体,各列是刻画实体的属性。这种结构查阅效率高,便于检索。同时结构化数据也被称为关系型数据,从设计之初就考虑了关系信息的表达,表中的属性字段,表间的关联都在反映关系。
结构化数据就像一位外向、善交际的小姐姐,性格特点一眼便知,人缘关系又好。反观非结构化的文本资讯就是一位内向的淑女——深锁闺中无人识(结构化数据的强项在这都是弱项,文本浏览、检索效率低,也难与其他数据建立关联)。
标签就是「资讯淑女」的「媒婆」,媒婆要去说媒一方面要归纳提炼出姑娘的特点,另一方面又要关系广,能帮忙去各处攀搭。
标签给文本内容带来了两重价值:
标签刻画了文本画像,提取了文本中的精华要点
标签架起了文本与外部数据的关系桥梁
标签是「资讯的媒婆」——会提炼、善攀搭
3
厨师手里的鸡蛋
资讯标签就像厨师手里的鸡蛋——简单食材也能千变万化。
基于标签刻画出的资讯画像,辅助资讯运营
栏目运营
专题运营
资讯自动上架
基于标签建立资讯与其他数据的关系桥梁
主题阅读:标签与资讯关系
自动配图:标签与图片关系
内容导流:标签与产品、业务功能关系
相关推荐:标签衔接资讯与资讯关系
个性化推荐:标签与人的关系
标签就像「厨师手里的鸡蛋」——简单食材却千变万化
4
标签系统的独白:我太难了
「资讯进、标签出」听似简单,但面对人类千变万化的语言,要能输出优质的标签,既是技术也需艺术(客观规律+主观经验)。
做标签系统,很多时候收到的反馈都是单点(某一篇资讯出现了某个问题)。容易遇到两个坑:(1)解决了问题A,带来问题B;(2)单点解决无穷无尽。怎样从点及面,把握全局是很大的考验。
在打磨标签系统的过程中,我对标签系统形成了一个7维评估模型。
召回率:文中涉及的主要概念是否均能打出标签;
准确度:打出的标签是否正确;
区分度:哪些标签与当前文本更相关;
颗粒度:打出标签的概念粒度是否足够精细;
智能性:是否能识别文中的复杂模式,推理出标签;
可维护性:标签体系是否便于扩展、长期管理;
潮流度:响应市场上新词、新概念的速度;
标签系统的难,只有实际做过、处理过各种真实问题后才能体会,我归纳为两大类,总共「十宗罪」。
第一类:标签体系数据
如何发现及补充新词、新概念?
如何评判一个标签颗粒度合适?
如何找齐、找对标签的特征词(同义词)?
如何保障标签体系在长期使用中不混乱?
第二类:自动打标逻辑
如何正确分词?(譬如:相比较三孩,我们更想要六一亲子黄金周——「黄金周」不能分出黄金)
如何正确解决歧义?(譬如:如何在捕鱼游戏里轻轻松松赢金币——此「金币」非实物金)
如何解析特殊语法模式?(譬如:买黄金不如买茅台——比喻语法,重点不在前半段)
如何区分出资讯中的强相关标签?(标签权重怎么算?)
如何过滤来源信息或风险提示等冗余信息?(譬如:图片来自视觉中国;文章来源:东方财富研究中心)
如何打出推理标签?(譬如:定投了一些主动管理基金推理出基金定投)
标签系统——入门易、精深难
标签系统的打磨是一个不断爬山的过程,路漫漫其修远兮。我们始终抱持敬畏之心努力前行KeepWalking...
转载请注明:http://www.abuoumao.com/hytd/4222.html