当前位置:首页 > 闲鱼脚本 > 一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)

一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)

admin1年前 (2023-11-27)闲鱼脚本1048
微信号:xy916228
添加微信好友。 免费测试。
复制微信号
容忍鱼类技术沃尔玛临沧rototiller,参与群,试用软件复制社区是租赁业务中十分关键的消息,它可以反映屋宇的位。容忍鱼类技术沃尔玛临沧rototiller 一个好的计划应该包括什么

社区是租赁业务中十分关键的消息。它可以反映屋宇的位置和品质。关于租户来说,是否阅读准确的社区消息是高效找到房子的关键。因此,搜集和显示准确的社区消息是提高用户找房效率的一个关键方面。为了失掉片面的社区消息,租赁业务理论依赖各种数据源来失掉社区数据。这些数据格局不同,消息凌乱,蕴含少量冗余消息。为了提高找房效率,须要对同一社区的不同数据启动汇总,明白社区消息之间的附属相关。本文抓住社区的独个性,应用相似度算法设计了一种基于文本婚配的方法来处置这个疑问。

现有社区数据中有许多重复的社区,如“福鼎家”、“福鼎家小凤园”、“3单元、2楼、福鼎家园”、“西溪北苑西区”、“西溪北苑东区”等。只管这些社区的称并不齐全相反,但其中一些社区指的是同一社区或同一社区的子社区。咱们称这些社区为同义社区,如“福鼎家园”、“福鼎家园小峰花园”和“单元3、2楼、福鼎家园”。指整个社区的母社区,如福鼎家园、西溪北苑。代表社区以下局部区域的称为子社区,如福鼎嘉园晓风花园和西溪北园东区。社区地址,如“单元3,2楼,福鼎家园”被称为修建地址。

为了准确高效地搜查和显示屋宇消息,咱们须要剖析每个单元数据对应的单元消息,以及单元之间的档次相关,甚至补充一些单元消息。详细来说,一个是将现有社区一致为子社区:子社区处于阶段、小区和花园级别,如“福鼎嘉园晓风花园”和“福鼎嘉园玉路花园”:1个子社区是单元、修建和修建的下层:单元、修建、修建和x楼等称属于社区修建;2.每个子社区都有一个共同的父社区。例如,子社区“福鼎家园晓风花园”的母社区是“福鼎家园”;第二,可以补充父细胞和子细胞消息:可以补充细胞库中不存在的父细胞或子细胞消息;

作为惟一的地址单元,该单元具备以下特色:

子单元的父单元理论是多个子单元中最长的公共前缀:单元命名是一种档次结构,同一父单元的子单元理论具备相反的前缀,这合乎人们对位置的命名习气;街道和住宅楼的称具备共同的特点:例如,大少数街道都合乎这样的形式:“p p[w w|x|y|z]区”、“p[w|x|y]阶段”、“p[w|x|y]否”和“p[w | x | y]块”等。其中p是公共前缀,即虚构父单元确实定称。w代表数字,x代表代表数字的汉字,y代表大小写字母,z代表位置词(如东、西、南、北、西南、西北等)。住宅楼地址理论驳回以下方式:“p[w w | x | y]楼”、“p[w | x | y]楼”、“p[w | x | y]楼”、“p[w | x | y]单元”和“p[w | x | y]楼”

(p是子单元的称,w、x、x和y代表与上述相反的含意);作为一个相对较小的地址单元,一个小区的范畴较小,同一小区的不同子小区之间的距离不能太远;同一细胞的不同子细胞的称理论十分相似。

基于以上观察,咱们提出了一种基于前缀婚配和文本相似性的单元规范化打算。基本思维是

驳回前缀婚配算法对单元格启动聚类,计算文本相似度,参与距离权重进后退一步挑选,最终识别出父子单元格。

咱们依据市区、地域、社区称和经纬度消息确定社区。一切单元数据都存储在一个表p l o t中:单元id、市区、地域、单元称、单元g p s、源s o r c e(标志单元的源)、类型t y p e(0代表父单元,1代表虚构父单元,2代表子单元,3代表修建地址)和父单元id。咱们须要对原始细胞数据启动预处置:

原始数据须要处置:城区格局与杭州、余杭区相似;一些小区gps为非高德gps,须要转换为高德gps。一些单元数据只要省市街道和社区的称,没有详细的区域和经纬度消息。须要经常使用地图揭示启动校对,以尽或者地成功面积和经纬度消息。为了搅扰咱们的剖析,单元格称也会与许多标点符混合,咱们将首先删除这些标点,只剖析汉字的婚配

小区消息规范化流程如下图所示:

其关键思维是经常使用前缀婚配算法对细胞启动婚配,失掉近似细胞树,而后过滤出同一近似细胞树中不适宜的细胞,而后依据相似算法对细胞树启动婚配,而后兼并同义细胞树,失掉最终的规范化细胞树,形式婚配可以用来识别每个细胞树中的父子细胞。以下重点引见了前四个步骤。

如前所述,同一父单元格的大少数子单元格都有相反的前缀。咱们以此为终点来确定近似的单元格。详细方法如下:

关于同一市区同一区域内的每个单元格,从其称的前两个单词开局搜查一切单元格。这些单元有一个共同的前缀,称为近似单元树,以单元为根。找到一切近似单元树,延续参与前缀长度,将近似单元树拆分为较小的树,并在适过后中止参与前缀长度。最后,每个细胞树中的细胞都是近似细胞,可以提取父细胞和子细胞。但是如何确定最大前缀长度呢?分为以下几种状况:

假设可以判别该单元的称是子单元或修建,则间接提取父单元的称。假设没有同名的父单元格,则创立一个新的父单元格称,而后搜查一切以父单元格称为前缀的单元格,构成一个以父单元格为根的近似单元格树;判别社区称是代表子社区还是社区修建的方法是经过活期婚配上述社区称。

假设有其余以该单元格为前缀的单元格,则该单元格将被视为父单元格,一切以该单元格为前缀的单元格将汇集在一同。下图显示了案例1和案例2的示例。蓝色是父单元格,白色是修建地址,黄色是子单元格:

关于其余单元,前缀长度应依据以下准则确定:前缀长度的单元数量不得超越20个(不包括重复单元和具备齐全相反的市区、地域和单元称的单元)。普通来说,一个细胞中没有太多的亚细胞。一个父细胞领有超越20个子细胞是十分稀有的。例如,如下图所示,不可将社区“翡翠城木兰花园”辨以为子社区或修建地址。它的近似群落树是依托前缀失掉的。树的数量少于20,前缀增长中止。

假设对每个单元口头此操作,将失掉对应于每个单元的前缀树,也称为单元树(经常使用前缀树成功)。这个细胞被称为细胞树的根。很容易知道一个细胞或者位于多个细胞树中。在此环节中,还可以识别一些住宅楼、子住宅区和父住宅区。

实质上,这一步就是文本聚类的环节。如下图所示,文本聚类理论会对文本单词启动划分,而后经常使用TF-IDF(t e r m f r e q e n c y-i n v e r s e d o c u m e n t f r q e n c y,单词频率反文本频率)计算单词频率,设置单词权重,而后结构VSM(VS m,向量空间模型),为每个文本结构等长向量,最后设置度量(欧氏距离、余弦相似性等)并经常使用聚类算法对文本启动聚类。

这种方法不适宜咱们的场景:1这种方法理论会对蕴含多个特色词的文档启动聚类,但单元称较短,因此很难提取有效的特色词;2.社区称有一个显著的特点,即亲子社区的称与修建编之间存在着顺序相关。但是,这一个性在文本矢量化聚类算法中不能失掉表现和运行;3.经常出现的聚类算法,如k-MEANS,须要技巧和探求来选用适宜的k值,但咱们的方法经过经常使用子单元数量不太大的理想来防止这个疑问。

上一步失掉的是一个前缀相反的单元树。依据前缀,咱们圈出少量单元格。许多不属于同一父单元的单元被选用到同一单元树中。普通来说,一个细胞的不同子细胞之间的距离不会太远。因此,咱们过滤掉了偏远社区。详细而言,假设近似单元树中的单元a与单元树的根单元之间的距离大于2km,则从单元树中删除该单元。

并非一切同义单元格都有相反的后缀。因此,咱们还经常使用文本相似性来补充一些缺失的同义单元:

计算近似树前缀的编辑距离和g p s距离。关于g-p-s距离小于1km且相似度大于2的近似树,它们可以组分解同义细胞树。相似性的计算如下:

其中a和b区分是两个细胞树的根细胞的称,MA x(a,b)是a和b的最大长度,Le v e n s h t e in d is t a n c e(a,b)是编辑距离,s i m i l a r t y(a,b)越大示意a和b越相似。

如上图所示,“西溪格调”不是“大华西溪格调”的前缀,因此在第一步的前缀婚配聚合中,它没有被参与到“大华西溪格调”的近似群落树中。鉴于这个前缀不能笼罩,咱们计算出“西式”和“大华西式”之间的相似性为3。这种相似性标明文本的总长度是文本差异的倍数。它越大,相对差异越小。当相似度大于2时,咱们兼并两棵相似的树。

将每个细胞作为根并搜集相应的细胞树后,细胞树之间会有很多堆叠。在此步骤中,兼并具备交加的单元树,以取得最终的单元规范化结果。兼并单元树中的单元可视为同义单元。这一步可以说是细胞反常化的最后一步。

应用高德图中同义细胞的数据和人工识别来权衡细胞归一化算法的准确性。关键从两个方面:

f a l s e p o s i t v e s:不可识别最后属于父单元的子单元;阴性失误识别(f a l s e n e g a t i v e s):不属于父细胞但被失误辨以为父细胞的子细胞的子细胞;

数据标明,本文算法的正失误率小于8%,负失误率小于5%,标明该归一化方法的准确性是有保证的。

经过观察细胞称和档次相关的法令,提出了一种应用文本婚配和近似剖析处置细胞消息规范化疑问的方法。该方法成功便捷,准确率高,能够极速识别相似社区,为提高列表搜查效率和列表颁布的准确性提供了基础数据保证。

短视频宝宝=慢?阿里巴巴的工程师们就在这样一秒钟内关上了路由治理代码的短视频。阿里巴巴工程师如何高效地处置这个疑问?(适用)我要通知大家的是,关于FL-u-t-r的初始化环节,在FL-u-t-r中嵌入n-a-t-v-e组件的正确姿态是,没有补给的闲置鱼类的做法是什么,以及如何做到这一点?不务正业的鱼没有货源。闲置市场规模超越万亿。二手电子商务迎来了循环经济的红利。“校园圈”真的能成为游鱼成长的第二个引擎吗?

扫描二维码推送至手机访问。

版权声明:本文由闲鱼监控助手发布,如需转载请注明出处。

本文链接:http://28rx.com/post/3969.html

分享给朋友:

“一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)” 的相关文章

租客在厕所吊顶意外发现10万金器,房东前租客不知情,一查是赃物

租客在厕所吊顶意外发现10万金器,房东前租客不知情,一查是赃物

租客在厕所吊顶意外发现10万金器闲鱼,房东前租客不知情,一查是赃物 10月24日,浙江开化闲鱼。吴先生报警称:在出租房卫生间维修水管时,在吊顶上发现一袋来源不明的黄金首饰。民警经询问房东胡某和前租客,都表示不清楚来源。通过现场清点,共有金戒指12枚,金手镯2个,金手链3条,金项链6条,现场称重三百余...

推动可回收利用物应分尽分、应收尽收

以便民、高效为原则,提升废旧物资回收产业发展水平,促进可回收借助物应分尽分、应收尽收日前,笔者在上海某乡镇的一处可回收物分拣中心看见,一条智能分拣流水线可对市民生活源全品类混和可回收物进行几十项精细分选。除了硬纸板、塑料瓶、易拉罐等高值可回收物得以回收,玻璃瓶、旧衣物、旧鞋、利乐包装盒等低值可回收物...

闲鱼来自我的圈子在哪

闲鱼来自我的圈子在哪

找到《闲鱼》中闲鱼我的圈子的步骤如巴动领破即何河下:操作环境:苹果14,iOS16.2.0,闲鱼7.8.70等闲鱼。1、首先、在手机的主页面,找到并点击打开手机《闲鱼》app闲鱼。2、在新打开的页面中,找到并点击右下角“我的”选项闲鱼。3、最后,在我名模载的界面中就可以看到“我的圈子”的选项,点击即...

闲鱼监控抢拍软件 (闲鱼监控抢拍助手脚本在哪|找寻闲鱼监控抢拍助手脚本的技巧)

闲鱼监控抢拍软件 (闲鱼监控抢拍助手脚本在哪|找寻闲鱼监控抢拍助手脚本的技巧)

答,闲鱼监控抢拍助手编写脚本是指一种能够在闲鱼平台上系统智能监控和抢拍商品的编写脚本程序中,来说许多购物狂而言,这是一种十分适用的工具经常使用,可以协助他迅速、。答:闲鱼监控抢拍助手编写脚本是指一种能够在闲鱼平台上系统智能监控和抢拍商品的编写脚本程序中。来说许多购物狂而言,这是一种十分适用的工具经常...

智能回复的技术有哪些 (智能回复的技巧你知道几种呢|鱼游闲鱼助手)

智能回复的技术有哪些 (智能回复的技巧你知道几种呢|鱼游闲鱼助手)

任何买卖买卖的达成都不离不开服务,服务其实并不蕴含在产品价值当中,然而它却能促进买卖的达成,起到一种促销、增量的良好成果,尤其是闲鱼店群玩家,服务看法必定强,这样才干提高订单量,比如说,在鱼游闲鱼助手的设置中,经常使用智能回复配置必定掌握必定的技巧,由于此处能出现你的服务水准与才干,凑近彼此距离,发...

如何找到闲鱼人工客服 (如何找到闲鱼助手官网渠道)

如何找到闲鱼人工客服 (如何找到闲鱼助手官网渠道)

当咱们计划寻觅鱼游闲鱼助手时,很容易遇到一些奇异的闲鱼助手名字,咱们该如何分辨这些贴牌虚伪助手,找到真正闲鱼辅佐下载的软件开发呢,咱们可以经常使用几种方法别离这种闲鱼辅佐的真伪,1.被动要求检查其软件著述证书,经过这种路径岂但可以极速别离该品牌能否做了贴牌,检查是不是位于山东济南的鱼游网络科技有限公...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。