当前位置:首页 > 闲鱼脚本 > 一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)

一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)

admin10个月前 (11-27)闲鱼脚本1026
微信号:xy916228
添加微信好友。 免费测试。
复制微信号
容忍鱼类技术沃尔玛临沧rototiller,参与群,试用软件复制社区是租赁业务中十分关键的消息,它可以反映屋宇的位。容忍鱼类技术沃尔玛临沧rototiller 一个好的计划应该包括什么

社区是租赁业务中十分关键的消息。它可以反映屋宇的位置和品质。关于租户来说,是否阅读准确的社区消息是高效找到房子的关键。因此,搜集和显示准确的社区消息是提高用户找房效率的一个关键方面。为了失掉片面的社区消息,租赁业务理论依赖各种数据源来失掉社区数据。这些数据格局不同,消息凌乱,蕴含少量冗余消息。为了提高找房效率,须要对同一社区的不同数据启动汇总,明白社区消息之间的附属相关。本文抓住社区的独个性,应用相似度算法设计了一种基于文本婚配的方法来处置这个疑问。

现有社区数据中有许多重复的社区,如“福鼎家”、“福鼎家小凤园”、“3单元、2楼、福鼎家园”、“西溪北苑西区”、“西溪北苑东区”等。只管这些社区的称并不齐全相反,但其中一些社区指的是同一社区或同一社区的子社区。咱们称这些社区为同义社区,如“福鼎家园”、“福鼎家园小峰花园”和“单元3、2楼、福鼎家园”。指整个社区的母社区,如福鼎家园、西溪北苑。代表社区以下局部区域的称为子社区,如福鼎嘉园晓风花园和西溪北园东区。社区地址,如“单元3,2楼,福鼎家园”被称为修建地址。

为了准确高效地搜查和显示屋宇消息,咱们须要剖析每个单元数据对应的单元消息,以及单元之间的档次相关,甚至补充一些单元消息。详细来说,一个是将现有社区一致为子社区:子社区处于阶段、小区和花园级别,如“福鼎嘉园晓风花园”和“福鼎嘉园玉路花园”:1个子社区是单元、修建和修建的下层:单元、修建、修建和x楼等称属于社区修建;2.每个子社区都有一个共同的父社区。例如,子社区“福鼎家园晓风花园”的母社区是“福鼎家园”;第二,可以补充父细胞和子细胞消息:可以补充细胞库中不存在的父细胞或子细胞消息;

作为惟一的地址单元,该单元具备以下特色:

子单元的父单元理论是多个子单元中最长的公共前缀:单元命名是一种档次结构,同一父单元的子单元理论具备相反的前缀,这合乎人们对位置的命名习气;街道和住宅楼的称具备共同的特点:例如,大少数街道都合乎这样的形式:“p p[w w|x|y|z]区”、“p[w|x|y]阶段”、“p[w|x|y]否”和“p[w | x | y]块”等。其中p是公共前缀,即虚构父单元确实定称。w代表数字,x代表代表数字的汉字,y代表大小写字母,z代表位置词(如东、西、南、北、西南、西北等)。住宅楼地址理论驳回以下方式:“p[w w | x | y]楼”、“p[w | x | y]楼”、“p[w | x | y]楼”、“p[w | x | y]单元”和“p[w | x | y]楼”

(p是子单元的称,w、x、x和y代表与上述相反的含意);作为一个相对较小的地址单元,一个小区的范畴较小,同一小区的不同子小区之间的距离不能太远;同一细胞的不同子细胞的称理论十分相似。

基于以上观察,咱们提出了一种基于前缀婚配和文本相似性的单元规范化打算。基本思维是

驳回前缀婚配算法对单元格启动聚类,计算文本相似度,参与距离权重进后退一步挑选,最终识别出父子单元格。

咱们依据市区、地域、社区称和经纬度消息确定社区。一切单元数据都存储在一个表p l o t中:单元id、市区、地域、单元称、单元g p s、源s o r c e(标志单元的源)、类型t y p e(0代表父单元,1代表虚构父单元,2代表子单元,3代表修建地址)和父单元id。咱们须要对原始细胞数据启动预处置:

原始数据须要处置:城区格局与杭州、余杭区相似;一些小区gps为非高德gps,须要转换为高德gps。一些单元数据只要省市街道和社区的称,没有详细的区域和经纬度消息。须要经常使用地图揭示启动校对,以尽或者地成功面积和经纬度消息。为了搅扰咱们的剖析,单元格称也会与许多标点符混合,咱们将首先删除这些标点,只剖析汉字的婚配

小区消息规范化流程如下图所示:

其关键思维是经常使用前缀婚配算法对细胞启动婚配,失掉近似细胞树,而后过滤出同一近似细胞树中不适宜的细胞,而后依据相似算法对细胞树启动婚配,而后兼并同义细胞树,失掉最终的规范化细胞树,形式婚配可以用来识别每个细胞树中的父子细胞。以下重点引见了前四个步骤。

如前所述,同一父单元格的大少数子单元格都有相反的前缀。咱们以此为终点来确定近似的单元格。详细方法如下:

关于同一市区同一区域内的每个单元格,从其称的前两个单词开局搜查一切单元格。这些单元有一个共同的前缀,称为近似单元树,以单元为根。找到一切近似单元树,延续参与前缀长度,将近似单元树拆分为较小的树,并在适过后中止参与前缀长度。最后,每个细胞树中的细胞都是近似细胞,可以提取父细胞和子细胞。但是如何确定最大前缀长度呢?分为以下几种状况:

假设可以判别该单元的称是子单元或修建,则间接提取父单元的称。假设没有同名的父单元格,则创立一个新的父单元格称,而后搜查一切以父单元格称为前缀的单元格,构成一个以父单元格为根的近似单元格树;判别社区称是代表子社区还是社区修建的方法是经过活期婚配上述社区称。

假设有其余以该单元格为前缀的单元格,则该单元格将被视为父单元格,一切以该单元格为前缀的单元格将汇集在一同。下图显示了案例1和案例2的示例。蓝色是父单元格,白色是修建地址,黄色是子单元格:

关于其余单元,前缀长度应依据以下准则确定:前缀长度的单元数量不得超越20个(不包括重复单元和具备齐全相反的市区、地域和单元称的单元)。普通来说,一个细胞中没有太多的亚细胞。一个父细胞领有超越20个子细胞是十分稀有的。例如,如下图所示,不可将社区“翡翠城木兰花园”辨以为子社区或修建地址。它的近似群落树是依托前缀失掉的。树的数量少于20,前缀增长中止。

假设对每个单元口头此操作,将失掉对应于每个单元的前缀树,也称为单元树(经常使用前缀树成功)。这个细胞被称为细胞树的根。很容易知道一个细胞或者位于多个细胞树中。在此环节中,还可以识别一些住宅楼、子住宅区和父住宅区。

实质上,这一步就是文本聚类的环节。如下图所示,文本聚类理论会对文本单词启动划分,而后经常使用TF-IDF(t e r m f r e q e n c y-i n v e r s e d o c u m e n t f r q e n c y,单词频率反文本频率)计算单词频率,设置单词权重,而后结构VSM(VS m,向量空间模型),为每个文本结构等长向量,最后设置度量(欧氏距离、余弦相似性等)并经常使用聚类算法对文本启动聚类。

这种方法不适宜咱们的场景:1这种方法理论会对蕴含多个特色词的文档启动聚类,但单元称较短,因此很难提取有效的特色词;2.社区称有一个显著的特点,即亲子社区的称与修建编之间存在着顺序相关。但是,这一个性在文本矢量化聚类算法中不能失掉表现和运行;3.经常出现的聚类算法,如k-MEANS,须要技巧和探求来选用适宜的k值,但咱们的方法经过经常使用子单元数量不太大的理想来防止这个疑问。

上一步失掉的是一个前缀相反的单元树。依据前缀,咱们圈出少量单元格。许多不属于同一父单元的单元被选用到同一单元树中。普通来说,一个细胞的不同子细胞之间的距离不会太远。因此,咱们过滤掉了偏远社区。详细而言,假设近似单元树中的单元a与单元树的根单元之间的距离大于2km,则从单元树中删除该单元。

并非一切同义单元格都有相反的后缀。因此,咱们还经常使用文本相似性来补充一些缺失的同义单元:

计算近似树前缀的编辑距离和g p s距离。关于g-p-s距离小于1km且相似度大于2的近似树,它们可以组分解同义细胞树。相似性的计算如下:

其中a和b区分是两个细胞树的根细胞的称,MA x(a,b)是a和b的最大长度,Le v e n s h t e in d is t a n c e(a,b)是编辑距离,s i m i l a r t y(a,b)越大示意a和b越相似。

如上图所示,“西溪格调”不是“大华西溪格调”的前缀,因此在第一步的前缀婚配聚合中,它没有被参与到“大华西溪格调”的近似群落树中。鉴于这个前缀不能笼罩,咱们计算出“西式”和“大华西式”之间的相似性为3。这种相似性标明文本的总长度是文本差异的倍数。它越大,相对差异越小。当相似度大于2时,咱们兼并两棵相似的树。

将每个细胞作为根并搜集相应的细胞树后,细胞树之间会有很多堆叠。在此步骤中,兼并具备交加的单元树,以取得最终的单元规范化结果。兼并单元树中的单元可视为同义单元。这一步可以说是细胞反常化的最后一步。

应用高德图中同义细胞的数据和人工识别来权衡细胞归一化算法的准确性。关键从两个方面:

f a l s e p o s i t v e s:不可识别最后属于父单元的子单元;阴性失误识别(f a l s e n e g a t i v e s):不属于父细胞但被失误辨以为父细胞的子细胞的子细胞;

数据标明,本文算法的正失误率小于8%,负失误率小于5%,标明该归一化方法的准确性是有保证的。

经过观察细胞称和档次相关的法令,提出了一种应用文本婚配和近似剖析处置细胞消息规范化疑问的方法。该方法成功便捷,准确率高,能够极速识别相似社区,为提高列表搜查效率和列表颁布的准确性提供了基础数据保证。

短视频宝宝=慢?阿里巴巴的工程师们就在这样一秒钟内关上了路由治理代码的短视频。阿里巴巴工程师如何高效地处置这个疑问?(适用)我要通知大家的是,关于FL-u-t-r的初始化环节,在FL-u-t-r中嵌入n-a-t-v-e组件的正确姿态是,没有补给的闲置鱼类的做法是什么,以及如何做到这一点?不务正业的鱼没有货源。闲置市场规模超越万亿。二手电子商务迎来了循环经济的红利。“校园圈”真的能成为游鱼成长的第二个引擎吗?

扫描二维码推送至手机访问。

版权声明:本文由闲鱼监控助手发布,如需转载请注明出处。

本文链接:http://28rx.com/post/3969.html

分享给朋友:

“一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)” 的相关文章

阿里云再出重大故障引发淘宝、闲鱼、钉钉等APP崩溃,阿里回应“已全面恢复”

阿里云再出重大故障引发淘宝、闲鱼、钉钉等APP崩溃,阿里回应“已全面恢复”

11月12日晚间消息,阿里云今日晚间发生故障闲鱼。目前,“淘宝又崩了”“闲鱼崩了”“阿里云盘崩了”“钉钉崩了”等话题相继登上微博热搜,阿里系诸多产品受到影响。有的用户购物页面显示代码,有的显示白屏,也有用户表示可以正常购物。在一个阿里云客户服务支持相关的钉钉官方群内,相关管理员发布公告称,2023年...

闲鱼卡单秒拍 闲鱼卡单交易的最新秒拍视频

闲鱼卡单秒拍 闲鱼卡单交易的最新秒拍视频

随之社交关系电商的勃兴,越来越多的人开始选择在闲鱼平台努力上进行二手物品的完成交易。而其中包括最受欢迎的完成交易形式之一是闲鱼卡单交易。为了让用户更好地了解闲鱼卡单交易的流程和劣势,闲鱼最新发布了一段秒拍视频。 视频中,一位名叫小明的用户展现了怎样以及使用闲鱼卡单完成交易基本功能,轻松实现了他的闲置...

一键下载闲鱼app (一键下载闲鱼辅佐工具|闲鱼助手下载装置包)

闲鱼助手是一款为闲鱼用户提供辅佐配置的工具,能够协助用户更好地治理和买卖自己的二手商品,在经常使用闲鱼助手之前,须要先下载和装置该工具的装置包,,ccjun9。闲鱼助手是一款为闲鱼用户提供辅佐配置的工具,能够协助用户更好地治理和买卖自己的二手商品。在经常使用闲鱼助手之前,须要先下载和装置该工具的装置...

闲鱼智能上货什么意思 (闲鱼智能上货软件)

闲鱼智能上货什么意思 (闲鱼智能上货软件)

闲鱼助手。 网络兼职千千万,仔细做好一份兼职,有时支出比你本职还要高,这种状况极为常常出现,其中就包含当下最火爆的闲鱼店群玩家。那么,小白玩家如何能力应用闲鱼上货工具做好网赚兼职呢?在此之前,你须要先了解闲鱼卖货的基础操作。简而概之,就是寻觅最适合的货源,而后在闲鱼平台上架,假设有闲鱼... 闲鱼...

闲鱼群控软件多少钱 (闲鱼群控软件的配置和实用人群有哪些)

闲鱼群控软件多少钱 (闲鱼群控软件的配置和实用人群有哪些)

在疫情的出尔反尔之下,实体经济遭到很大的冲击,很多好友都想了解闲鱼电商赚钱,什么是闲鱼群控软件,闲鱼群控软件实用哪些人群呢。 我是一名闲鱼商家兼淘宝客感谢闲鱼助手团队!我破费好长期间试过一切的辅佐软件,最终还是选用了这个闲鱼助手。真的是良知软件。性价比最高,关键是经常使用十分便捷。我如今58个闲鱼号...

闲鱼助理3.0 (闲鱼助理3.0配置更新|闲鱼助理|下载可立刻无偿经常使用闲鱼助理3.0)

闲鱼助理3.0 (闲鱼助理3.0配置更新|闲鱼助理|下载可立刻无偿经常使用闲鱼助理3.0)

闲鱼助理3.0。 历时半个多月的时期,闲鱼助手团队终于研制出了闲鱼助理3.0版本。上方是助手的一些信息,大家可以费试用,首先闲鱼助手APP下载地址:/xiazai 接上去是软件的经常使用教程 闲鱼助理3.0配置-手机端免root 第一步:手机系统7.0版本以上的可免得root就可以经常使用了....

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。