打造一款财经资讯标签系统难在哪

知行思新

读完需要

4分钟

速读仅需2分钟

最近为了思考标签系统的未来产品规划,一方面收集分析来自各个渠道的反馈与建议;另一方面给了我一次机会,重新回到原点反思标签系统的本质......

1

文本榨汁机

「标签系统」就像一台文本榨汁机,塞入一篇文本资讯,输出从该资讯中浓缩的精华——标签。换作技术术语,这台文本「榨汁机」是从非结构化文本数据中,提取出半结构化的标签数据。

拆开这台文本榨汁机,里面的部件就两块:标签体系数据+自动打标算法逻辑

标签系统就是一台「文本榨汁机」

2

资讯的媒婆

文本资讯变为半结构化标签后又有什么意义?

咱们暂且放过半结构化标签,先来看看源远流长的结构化数据(咱们日常最熟悉的表格),每条记录描述了一个实体,各列是刻画实体的属性。这种结构查阅效率高,便于检索。同时结构化数据也被称为关系型数据,从设计之初就考虑了关系信息的表达,表中的属性字段,表间的关联都在反映关系。

结构化数据就像一位外向、善交际的小姐姐,性格特点一眼便知,人缘关系又好。反观非结构化的文本资讯就是一位内向的淑女——深锁闺中无人识(结构化数据的强项在这都是弱项,文本浏览、检索效率低,也难与其他数据建立关联)。

标签就是「资讯淑女」的「媒婆」,媒婆要去说媒一方面要归纳提炼出姑娘的特点,另一方面又要关系广,能帮忙去各处攀搭。

标签给文本内容带来了两重价值:

标签刻画了文本画像,提取了文本中的精华要点

标签架起了文本与外部数据的关系桥梁

标签是「资讯的媒婆」——会提炼、善攀搭

3

厨师手里的鸡蛋

资讯标签就像厨师手里的鸡蛋——简单食材也能千变万化。

基于标签刻画出的资讯画像,辅助资讯运营

栏目运营

专题运营

资讯自动上架

基于标签建立资讯与其他数据的关系桥梁

主题阅读:标签与资讯关系

自动配图:标签与图片关系

内容导流:标签与产品、业务功能关系

相关推荐:标签衔接资讯与资讯关系

个性化推荐:标签与人的关系

标签就像「厨师手里的鸡蛋」——简单食材却千变万化

4

标签系统的独白:我太难了

「资讯进、标签出」听似简单,但面对人类千变万化的语言,要能输出优质的标签,既是技术也需艺术(客观规律+主观经验)。

做标签系统,很多时候收到的反馈都是单点(某一篇资讯出现了某个问题)。容易遇到两个坑:(1)解决了问题A,带来问题B;(2)单点解决无穷无尽。怎样从点及面,把握全局是很大的考验。

在打磨标签系统的过程中,我对标签系统形成了一个7维评估模型。

召回率:文中涉及的主要概念是否均能打出标签;

准确度:打出的标签是否正确;

区分度:哪些标签与当前文本更相关;

颗粒度:打出标签的概念粒度是否足够精细;

智能性:是否能识别文中的复杂模式,推理出标签;

可维护性:标签体系是否便于扩展、长期管理;

潮流度:响应市场上新词、新概念的速度;

标签系统的难,只有实际做过、处理过各种真实问题后才能体会,我归纳为两大类,总共「十宗罪」。

第一类:标签体系数据

如何发现及补充新词、新概念?

如何评判一个标签颗粒度合适?

如何找齐、找对标签的特征词(同义词)?

如何保障标签体系在长期使用中不混乱?

第二类:自动打标逻辑

如何正确分词?(譬如:相比较三孩,我们更想要六一亲子黄金周——「黄金周」不能分出黄金)

如何正确解决歧义?(譬如:如何在捕鱼游戏里轻轻松松赢金币——此「金币」非实物金)

如何解析特殊语法模式?(譬如:买黄金不如买茅台——比喻语法,重点不在前半段)

如何区分出资讯中的强相关标签?(标签权重怎么算?)

如何过滤来源信息或风险提示等冗余信息?(譬如:图片来自视觉中国;文章来源:东方财富研究中心)

如何打出推理标签?(譬如:定投了一些主动管理基金推理出基金定投)

标签系统——入门易、精深难

标签系统的打磨是一个不断爬山的过程,路漫漫其修远兮。我们始终抱持敬畏之心努力前行KeepWalking...



转载请注明:http://www.abuoumao.com/hytd/4222.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: 冀ICP备19029570号-7