更新时间:2022-10-17T20:31:49 / 浏览:
次
其实很多算法在搜索引擎、自媒体、短视频等平台都是通用的,理解算法不论是做搜索还是转行自媒体都是有帮助的。
很多算法高等数学,看不懂啊,用通俗的方式来讲解见谅!比如Jaccard相似度算法完全看不懂如下:
现在还有很多AI算法分析语义向量,情感分析,相关性、特征样本分析此类算法不是很懂不讲解!有些算法并不适合海量数据,可能部分站长使用过ai有关工具,单机单次数据处理,处理时间是秒级别时间,碰到海量数据肯定不适用!
内容相似度算法
主要讲两个算法,其实相似度算法很多,但是支持海量数据去重的只有Simhash算法。
Jaccard相似度:
首先要提取标题或者内容特征作为相似性判断,要通过标题分词或者TF-IDF进行提取特征。
原理A文章与B文章中交集的字数除以并集的字数。
以标题分词为例:
A文章:电脑 蓝屏 怎么 解决
B文章:电脑 蓝屏 原因 什么
结果0.66这个系数则是A文章与B文章的相似度,越接近1证明内容相似度越高。
此算法海量数据下,比对性能下降严重,我自己测试三千万数据单机每次比对0.05秒。
Simhash:
内容去重最常用的算法,基本大厂都是用,占用小速度快,支持海量数据,10亿内容占用内存才100MB。
首先整个内容,通过分词提取特征(特征提取一般是几句话或topK),将特征词进行运算为64字节二进制,每个特征词分配不同权重,再将全部特征词的64字节二进制合并降维,通过汉明距离进行两个64字节比对,小于等于3则是重复内容。
弊端也是很严重的,比如准确率80%,所以会出现漏网之鱼,但是性能高速度快,应对每日增量很好用。
内容推荐算法
不知道算法名称,但是知道原理,这并不是某某公司原创的。
不论是图片、文字、视频机器并不知道有用户需求,因此就需要把内容推荐给一部分少量的用户群体,来检测用户是否点击、观看完整、跳出、收藏评论等等,进行判断内容是否有需求,有需求则认为内容是有质量的给予更多曝光,进入下一阶段推送流量池。
不论是搜索引擎或短视频自媒体平台都有这类算法。
以搜索引擎为例:
1、 当内容秒收录后,给予一段时间排名,过一段时间消失就是进行这类算法分析。
2、 资源平台的“流量与关键词”经常看到,有展现和点击,但是自己搜索不到,也是如此。
以百家号/自媒体/短视频为例:
1、 将内容或视频第一轮推送给200人进行分析,符合一定系数,进行第二轮推送推送给1000人,以此类推,推送第N轮不符合系数停止推送。
2、 如果视频内容每次推荐几十或几百,就要考虑自己的内容质量了,很多人高兴转型自媒体,每天小有播放量,其实这个播放量算法给的
协同过滤的推荐算法
其实协同过滤用途很多,比如百家号自媒体推荐。记录用户的经常访问的内容,作为喜欢这类内容的特征,通过以下方式来推荐喜欢和可能喜欢的内容。
A用户:喜欢橘子、西瓜、芒果 不喜欢菠萝、榴莲。
B用户:喜欢西瓜、橘子、苹果 不喜欢荔枝、菠萝。
通过算法协同算法可以得出
A用户可能喜欢苹果,不喜欢荔枝。
B用户可能喜欢芒果,不喜欢榴莲。
通常文字内容通过标题内容提取特征,视频择通过标签标题来提取特征推荐。更复杂的系统使用年龄段,性别,学历等等推荐,这就是大家常说的大数据。
用户行为推荐算法
根据用户搜索行为与点击行为对用户进行分析,当用户点击某个搜索结果时候,这篇内容对用户有需求,解决了用户的问题,没有跳出点击其他搜索结果页其他站点,搜索则会认为内容是优质的有需求的
详细用户行为介绍帖子:
“用户需求”的判定方式 http://bbs.zhanzhang.baidu.com/thread-2192126-1-1.html
“用户需求”深度分析理解!http://bbs.zhanzhang.baidu.com/thread-2195293-1-1.html
超链接有关算法
以前搜索引擎无法知道内容用户是否喜欢,因此通过超链接来分析,不过这类算法都被淘汰了,容易作弊,通过友链外链堆砌即可,某些产业来讲十分容易。
不论百度还是其他搜索引擎已经都没有与外链友链有关的工具。
2015年7月3日发布的《超链算法升级,外链拒绝功能下线》 提到“站点进行外链建设可满足被搜索引擎蜘蛛发现收录的需求,和超链权重计算的需求。但目前百度仅信任非常小范围内的优质重要外链,站点只要获得一些重要的、基本内容相关站点的超链即可满足需求。在这一点上,PC端与移动端是相互贯通的。百度站长平台在此呼吁各位站点,不要再为外链浪费时间与金钱了。”
其中“信任非常小范围内的优质重要外链”可能就是几个大平台站带,内容可控,作弊几率小
公告地址:https://ziyuan.baidu.com/wiki/407
PageRank算法:
多个URL链接指向自己页面,来表明此页面拥有大量用户分享是优质页面!
Hilltop算法:
Hilltop是PageRank的升级版,因为多个指向URL链接可能不相关,所以增加了一层分析页面是否相关,来判断页面是否是优质页面!
HITS算法:
是页面重要性分析算法,适用于内、外链接算法!
“其他页面指向此网页链接”和“此网页指向其他链接”,会给此网页分配“内容权重”和“链接权重”,通过页面与页面之间的相互连接,相互传递来分析内容权威度和质量,页面被其他页面引用越多,质量越高。
站点信任表现算法
TrustRank算法:
主要观察内容类型,内容独特性,内容原创,内容更新频率,站点稳定,站点40X/50X错误数量,站点历史等等来提高网站权威性,会增加收录和排名。
本文地址:
http://www.5118.link/article/06l910u543k8xp8j16ht.html
上一篇:人工智能专业大一新生在机器学习时学不会怎...
下一篇:Java程序员该如何应对公司裁员?...