网站建设资讯

NEWS

网站建设资讯

nosql倒排索引,mysql支持倒排索引吗

如何建立高效的反向索引

1、建立联合索引会更有效。

凤山ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联建站的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:18980820575(备注:SSL证书合作)期待与您的合作!

2、尽量使用同样顺序会更有效,然后过滤顺序的话,应该是从最小范围到最大范围.

回复:

检查你的查询语句的where子句,因为这是优化器重要关注的地方。包含在where里面的每一列(column)都是可能的侯选索引.

在某一列上检查唯一的数据的个数,比较它与表中数据的行数做一个比较。这就是数据的选择性,

--这比较结果将会帮助你决定是否将某一列作为侯选的索引列,如果需要,建哪一种索引。

--你可以用下面的查询语句返回某一列的不同值的数目。

select count(distinct cloumn_name) from table_name

假设column_name是一个10000行的表,则看column_name返回值来决定是否应该使用,及应该使用什么索引。

Unique values Index

5000 Nonclustered index

20 Clustered index

3 No index

不是太明白你的意思,以上只是个人看法。

深入研究查询Elasticsearch,过滤查询和全文搜索

或如何了解缺少哪些官方文件

如果我不得不用一个短语来描述Elasticsearch,我会说:

目前,Elasticsearch在十大最受欢迎的开源技术中。 公平地说,它结合了许多本身并不独特的关键功能,但是,当结合使用时,它可以成为最佳的搜索引擎/分析平台。

更准确地说,由于以下功能的结合,Elasticsearch变得如此流行:

· 搜索相关性评分

· 全文搜索

· 分析(汇总)

· 无模式(对数据模式无限制),NoSQL,面向文档

· 丰富的数据类型选择

· 水平可扩展

· 容错的

通过与Elasticsearch进行合作,我很快意识到,官方文档看起来更像是所谓文档的"挤压"。 我不得不在Google上四处搜寻,并且大量使用stackowerflow,所以我决定编译这篇文章中的所有信息。

在本文中,我将主要撰写有关查询/搜索Elasticsearch集群的文章。 您可以通过多种不同的方式来实现大致相同的结果,因此,我将尝试说明每种方法的利弊。

更重要的是,我将向您介绍两个重要的概念-查询和过滤器上下文-在文档中没有很好地解释。 我将为您提供一组规则,以决定何时使用哪种方法更好。

在阅读本文后,如果我只想让您记住一件事,那就是:

当我们谈论Elasticsearch时,总会有一个相关性分数。 相关性分数是严格的正浮点数,表示每个文档满足搜索标准的程度。 该分数是相对于分配的最高分数的,因此,分数越高,文档与搜索条件的相关性越好。

但是,过滤器和查询是您在编写查询之前应该能够理解的两个不同概念。

一般来说,过滤器上下文是一个"是/否"选项,其中每个文档都与查询匹配或不匹配。 一个很好的例子是SQL WHERE,后面是一些条件。 SQL查询总是返回严格符合条件的行。 SQL查询无法返回歧义结果。

另一方面,Elasticsearch查询上下文显示了每个文档与您的需求的匹配程度。 为此,查询使用分析器查找最佳匹配。

经验法则是将过滤器用于:

· 是/否搜索

· 搜索精确值(数字,范围和关键字)

将查询用于:

· 结果不明确(某些文档比其他文档更适合)

· 全文搜索

此外,Elasticsearch将自动缓存过滤器的结果。

在第1部分和第2部分中,我将讨论查询(可以转换为过滤器)。 请不要将结构化和全文与查询和过滤器混淆-这是两件事。

结构化查询也称为术语级查询,是一组查询方法,用于检查是否应选择文档。 因此,在很多情况下,没有真正必要的相关性评分-文档匹配或不匹配(尤其是数字)。

术语级查询仍然是查询,因此它们将返回分数。

名词查询 Term Query

返回字段值与条件完全匹配的文档。 查询一词是SQL select * from table_name where column_name =...的替代方式

名词查询直接进入倒排索引,这可以使其快速进行。 在处理文本数据时,最好仅将term用于keyword字段。

名词查询默认情况下在查询上下文中运行,因此,它将计算分数。 即使所有返回的文档的分数相同,也将涉及其他计算能力。

带有过滤条件的 名词 查询

如果我们想加速名词查询并使其得到缓存,则应将其包装在constant_score过滤器中。

还记得经验法则吗? 如果您不关心相关性得分,请使用此方法。

现在,该查询没有计算任何相关性分数,因此,它更快。 而且,它是自动缓存的。

快速建议-对文本字段使用匹配而不是名词。

请记住,名词查询直接进入倒排索引。名词查询采用您提供的值并按原样搜索它,这就是为什么它非常适合查询未经任何转换存储的keyword字段。

多名词查询 Terms query

如您所料,多名词查询使您可以返回至少匹配一个确切名词的文档。

多名词查询在某种程度上是SQL select * from table_name where column_name is in...的替代方法

重要的是要了解,Elasticsearch中的查询字段可能是一个列表,例如{“ name”:[“ Odin”,“ Woden”,“ Wodan”]}。如果您执行的术语查询包含以下一个或多个,则该记录将被匹配-它不必匹配字段中的所有值,而只匹配一个。

与名词查询相同,但是这次您可以在查询字段中指定多少个确切术语。

您指定必须匹配的数量-一,二,三或全部。 但是,此数字是另一个数字字段。 因此,每个文档都应包含该编号(特定于该特定文档)。

返回查询字段值在定义范围内的文档。

等价于SQL select * from table_name where column_name is between...

范围查询具有自己的语法:

· gt 大于

· gte 大于或等于

· lt 小于

· lte 小于或等于

一个示例,该字段的值应≥4且≤17

范围查询也可以很好地与日期配合使用。

正则表达式查询返回其中字段与您的正则表达式匹配的文档。

如果您从未使用过正则表达式,那么我强烈建议您至少了解一下它是什么以及何时可以使用它。

Elasticsearch的正则表达式是Lucene的正则表达式。 它具有标准的保留字符和运算符。 如果您已经使用过Python的re软件包,那么在这里使用它应该不是问题。 唯一的区别是Lucene的引擎不支持^和$等锚运算符。

您可以在官方文档中找到regexp的完整列表。

除正则表达式查询外,Elsticsearch还具有通配符和前缀查询。从逻辑上讲,这两个只是regexp的特殊情况。

不幸的是,我找不到关于这三个查询的性能的任何信息,因此,我决定自己对其进行测试,以查看是否发现任何重大差异。

在比较使用rehexp和通配符查询时,我找不到性能上的差异。如果您知道有什么不同,请给我发消息。

由于Elasticsearch是无模式的(或没有严格的模式限制),因此当不同的文档具有不同的字段时,这是一种很常见的情况。 结果,有很多用途来了解文档是否具有某些特定字段。

全文查询适用于非结构化文本数据。 全文查询利用了分析器。 因此,我将简要概述Elasticsearch的分析器,以便我们可以更好地分析全文查询。

每次将文本类型数据插入Elasticsearch索引时,都会对其进行分析,然后存储在反向索引中。根据分析器的配置方式,这会影响您的搜索功能,因为分析器也适用于全文搜索。

分析器管道包括三个阶段:

总有一个令牌生成器和零个或多个字符和令牌过滤器。

1)字符过滤器按原样接收文本数据,然后可能在对数据进行标记之前对其进行预处理。 字符过滤器用于:

· 替换与给定正则表达式匹配的字符

· 替换与给定字符串匹配的字符

· 干净的HTML文字

2)令牌生成器将字符过滤器(如果有)之后接收到的文本数据分解为令牌。 例如,空白令牌生成器只是将文本分隔为空白(这不是标准的)。 因此,Wednesday is called after Woden, 将被拆分为[Wednesday, is, called, after, Woden.]。 有许多内置标记器可用于创建自定义分析器。

删除标点符号后,标准令牌生成器将使用空格分隔文本。 对于绝大多数语言来说,这是最中立的选择。

除标记化外,标记化器还执行以下操作:

· 跟踪令牌顺序,

· 注释每个单词的开头和结尾

· 定义令牌的类型

3)令牌过滤器对令牌进行一些转换。您可以选择将许多不同的令牌过滤器添加到分析器中。一些最受欢迎的是:

· 小写

· 词干(存在多种语言!)

· 删除重复

· 转换为等效的ASCII

· 模式的解决方法

· 令牌数量限制

· 令牌的停止列表(从停止列表中删除令牌)

标准分析器是默认分析器。 它具有0个字符过滤器,标准令牌生成器,小写字母和停止令牌过滤器。 您可以根据需要组成自定义分析器,但是内置分析器也很少。

语言分析器是一些最有效的即用型分析器,它们利用每种语言的细节来进行更高级的转换。 因此,如果您事先知道数据的语言,建议您从标准分析器切换为数据的一种语言。

全文查询将使用与索引数据时使用的分析器相同的分析器。更准确地说,您查询的文本将与搜索字段中的文本数据进行相同的转换,因此两者处于同一级别。

匹配查询是用于查询文本字段的标准查询。

我们可以将匹配查询称为名词查询的等效项,但适用于文本类型字段(而在处理文本数据时,名词应仅用于关键字类型字段)。

默认情况下,传递给查询参数的字符串(必需的一个)将由与应用于搜索字段的分析器相同的分析器处理。 除非您自己使用analyzer参数指定分析器。

当您指定要搜索的短语时,将对其进行分析,并且结果始终是一组标记。默认情况下,Elasticsearch将在所有这些标记之间使用OR运算符。这意味着至少应该有一场比赛-更多的比赛虽然会得分更高。您可以在运算符参数中将其切换为AND。在这种情况下,必须在文档中找到所有令牌才能将其返回。

如果要在OR和AND之间输入某些内容,则可以指定minimum_should_match参数,该参数指定应匹配的子句数。 可以数字和百分比指定。

模糊参数(可选)可让您忽略错别字。 Levenshtein距离用于计算。

如果您将匹配查询应用于关键字keyword字段,则其效果与词条查询相同。 更有趣的是,如果将存储在反向索引中的令牌的确切值传递给term查询,则它将返回与匹配查询完全相同的结果,但是会更快地返回到反向索引。

与匹配相同,但顺序和接近度很重要。 匹配查询不了解序列和接近度,因此,只有通过其他类型的查询才能实现词组匹配。

match_phrase查询具有slop参数(默认值为0),该参数负责跳过术语。 因此,如果您指定斜率等于1,则短语中可能会省略一个单词。

多重比对查询的功能与比对相同,唯一的不同是多重比对适用于多个栏位

· 字段名称可以使用通配符指定

· 默认情况下,每个字段均加权

· 每个领域对得分的贡献都可以提高

· 如果没有在fields参数中指定任何字段,那么将搜索所有符合条件的字段

有多种类型的multi_match。 我不会在这篇文章中描述它们,但是我将解释最受欢迎的:

best_fields类型(默认值)更喜欢在一个字段中找到来自搜索值的令牌的结果,而不是将搜索的令牌分配到不同字段中的结果。

most_fields与best_fields类型相反。

phrase类型的行为与best_fields相同,但会搜索与match_phrase类似的整个短语。

我强烈建议您查阅官方文档,以检查每个字段的得分计算准确度。

复合查询将其他查询包装在一起。 复合查询:

· 结合分数

· 改变包装查询的行为

· 将查询上下文切换到过滤上下文

· 以上任意一项

布尔查询将其他查询组合在一起。 这是最重要的复合查询。

布尔查询使您可以将查询上下文中的搜索与过滤器上下文搜索结合在一起。

布尔查询具有四个可以组合在一起的出现(类型):

· must或"必须满足该条款"

· should或"如果满足条款,则对相关性得分加分"

· 过滤器filter或"必须满足该条款,但不计算相关性得分"

· must_not或“与必须相反”,不会有助于相关度得分

必须和应该→查询上下文

过滤器和must_not→过滤器上下文

对于那些熟悉SQL的人,必须为AND,而应为OR运算符。 因此,必须满足must子句中的每个查询。

对于大多数查询,提升查询与boost参数相似,但并不相同。 增强查询将返回与肯定子句匹配的文档,并降低与否定子句匹配的文档的得分。

如我们在术语查询示例中先前看到的,constant_score查询将任何查询转换为相关性得分等于boost参数(默认值为1)的过滤器上下文。

让我知道是否您想阅读另一篇文章,其中提供了所有查询的真实示例。

我计划在Elasticsearch上发布更多文章,所以不要错过。

你已经读了很长的内容,所以如果你阅读到这里:

综上所述,Elasticsearch符合当今的许多用途,有时很难理解什么是最佳工具。

如果不需要相关性分数来检索数据,请尝试切换到过滤器上下文。

另外,了解Elasticsearch的工作原理也至关重要,因此,我建议您始终了解分析器的功能。

Elasticsearch中还有许多其他查询类型。 我试图描述最常用的。 我希望你喜欢它。

(本文翻译自kotartemiy ✔️的文章《Deep Dive into Querying Elasticsearch. Filter vs Query. Full-text search》,参考:)

nosql数据库库和sql数据库的区别

一、概念

SQL (Structured Query Language) 数据库,指关系型数据库。主要代表:SQL Server,Oracle,MySQL(开源),PostgreSQL(开源)。

NoSQL(Not Only SQL)泛指非关系型数据库。主要代表:MongoDB,Redis,CouchDB。

二、区别

1、存储方式

SQL数据存在特定结构的表中;而NoSQL则更加灵活和可扩展,存储方式可以省是JSON文档、哈希表或者其他方式。SQL通常以数据库表形式存储数据。举个栗子,存个学生借书数据:

而NoSQL存储方式比较灵活,比如使用类JSON文件存储上表中熊大的借阅数据:

2、表/数据集合的数据的关系

在SQL中,必须定义好表和字段结构后才能添加数据,例如定义表的主键(primary key),索引(index),触发器(trigger),存储过程(stored procedure)等。表结构可以在被定义之后更新,但是如果有比较大的结构变更的话就会变得比较复杂。在NoSQL中,数据可以在任何时候任何地方添加,不需要先定义表。例如下面这段代码会自动创建一个新的"借阅表"数据集合:

NoSQL也可以在数据集中建立索引。以MongoDB为例,会自动在数据集合创建后创建唯一值_id字段,这样的话就可以在数据集创建后增加索引。

从这点来看,NoSQL可能更加适合初始化数据还不明确或者未定的项目中。

3、外部数据存储

SQL中如何需要增加外部关联数据的话,规范化做法是在原表中增加一个外键,关联外部数据表。例如需要在借阅表中增加审核人信息,先建立一个审核人表:

再在原来的借阅人表中增加审核人外键:

这样如果我们需要更新审核人个人信息的时候只需要更新审核人表而不需要对借阅人表做更新。而在NoSQL中除了这种规范化的外部数据表做法以外,我们还能用如下的非规范化方式把外部数据直接放到原数据集中,以提高查询效率。缺点也比较明显,更新审核人数据的时候将会比较麻烦。

4、SQL中的JOIN查询

SQL中可以使用JOIN表链接方式将多个关系数据表中的数据用一条简单的查询语句查询出来。NoSQL暂未提供类似JOIN的查询方式对多个数据集中的数据做查询。所以大部分NoSQL使用非规范化的数据存储方式存储数据。

5、数据耦合性

SQL中不允许删除已经被使用的外部数据,例如审核人表中的"熊三"已经被分配给了借阅人熊大,那么在审核人表中将不允许删除熊三这条数据,以保证数据完整性。而NoSQL中则没有这种强耦合的概念,可以随时删除任何数据。

6、事务

SQL中如果多张表数据需要同批次被更新,即如果其中一张表更新失败的话其他表也不能更新成功。这种场景可以通过事务来控制,可以在所有命令完成后再统一提交事务。而NoSQL中没有事务这个概念,每一个数据集的操作都是原子级的。

7、增删改查语法

8、查询性能

在相同水平的系统设计的前提下,因为NoSQL中省略了JOIN查询的消耗,故理论上性能上是优于SQL的。

高性能 NoSQL

关系数据库经过几十年的发展,已经非常成熟,但同时也存在不足:

表结构是强约束的,业务变更时扩充很麻烦。

如果对大数据量的表进行统计运算,I/O会很高,因为即使只针对某列进行运算,也需要将整行数据读入内存。

全文搜索只能使用 Like 进行整表扫描,性能非常低。

针对这些不足,产生了不同的 NoSQL 解决方案,在某些场景下比关系数据库更有优势,但同时也牺牲了某些特性,所以不能片面的迷信某种方案,应将其作为 SQL 的有利补充。

NoSQL != No SQL,而是:

NoSQL = Not Only SQL

典型的 NoSQL 方案分为4类:

Redis 是典型,其 value 是具体的数据结构,包括 string, hash, list, set, sorted set, bitmap, hyperloglog,常被称为数据结构服务器。

以 list 为例:

LPOP key 是移除并返回队列左边的第一个元素。

如果用关系数据库就比较麻烦了,需要操作:

Redis 的缺点主要体现在不支持完成的ACID事务,只能保证隔离性和一致性,无法保证原子性和持久性。

最大的特点是 no-schema,无需在使用前定义字段,读取一个不存在的字段也不会导致语法错误。

特点:

以电商为例,不同商品的属性差异很大,如冰箱和电脑,这种差异性在关系数据库中会有很大的麻烦,而使用文档数据库则非常方便。

文档数据库的主要缺点:

关系数据库是按行来存储的,列式数据库是按照列来存储数据。

按行存储的优势:

在某些场景下,这些优势就成为劣势了,例如,计算超重人员的数据,只需要读取体重这一列进行统计即可,但行式存储会将整行数据读取到内存中,很浪费。

而列式存储中,只需要读取体重这列的数据即可,I/O 将大大减少。

除了节省I/O,列式存储还有更高的压缩比,可以节省存储空间。普通行式数据库的压缩比在 3:1 到 5:1 左右,列式数据库在 8:1 到 30:1,因为单个列的数据相似度更高。

列式存储的随机写效率远低于行式存储,因为行式存储时同一行多个列都存储在连续空间中,而列式存储将不同列存储在不连续的空间。

一般将列式存储应用在离线大数据分析统计场景,因为这时主要针对部分列进行操作,而且数据写入后无须更新。

关系数据库通过索引进行快速查询,但在全文搜索的情景下,索引就不够了,因为:

假设有一个交友网站,信息表如下:

需要匹配性别、地点、语言列。

需要匹配性别、地点、爱好列。

实际搜索中,各种排列组合非常多,关系数据库很难支持。

全文搜索引擎是使用 倒排索引 技术,建立单词到文档的索引,例如上面的表信息建立倒排索引:

所以特别适合根据关键词来查询文档内容。

上面介绍了几种典型的NoSQL方案,及各自的适用场景和特点,您可以根据实际需求进行选择。

简述什么是nosql数据库,并列举两种常见的nosql数据库名称及其特点

NoSQL太火,冒出太多产品了,保守估计也成百上千了。

互联网公司常用的基本集中在以下几种,每种只举一个比较常见或者应用比较成功的例子吧。

1. In-Memory KV Store : Redis

in memory key-value store,同时提供了更加丰富的数据结构和运算的能力,成功用法是替代memcached,通过checkpoint和commit log提供了快速的宕机恢复,同时支持replication提供读可扩展和高可用。

2. Disk-Based KV Store: Leveldb

真正基于磁盘的key-value storage, 模型单一简单,数据量不受限于内存大小,数据落盘高可靠,Google的几位大神出品的精品,LSM模型天然写优化,顺序写盘的方式对于新硬件ssd再适合不过了,不足是仅提供了一个库,需要自己封装server端。

3. Document Store: Mongodb

分布式nosql,具备了区别mysql的最大亮点:可扩展性。mongodb 最新引人的莫过于提供了sql接口,是目前nosql里最像mysql的,只是没有ACID的特性,发展很快,支持了索引等特性,上手容易,对于数据量远超内存限制的场景来说,还需要慎重。

4. Column Table Store: HBase

这个富二代似乎不用赘述了,最大的优势是开源,对于普通的scan和基于行的get等基本查询,性能完全不是问题,只是只提供裸的api,易用性上是短板,可扩展性方面是最强的,其次坐上了Hadoop的快车,社区发展很快,各种基于其上的开源产品不少,来解决诸如join、聚集运算等复杂查询。

nosql为什么比sql快

因为索引多。同一条个数据,NOSQL占用空间是一般SQL数据库的3-5倍。

你可以理解成NOSQL默认开启全字段索引和全文索引什么的。

其实在十万级以下的数据,只要SQL建好索引的情况并不比NOSQL慢。NOSQL主要是用于千万上亿级的时候。


当前文章:nosql倒排索引,mysql支持倒排索引吗
文章起源:http://njwzjz.com/article/dsdgood.html