Python连接es笔记三之es更新操作

铁头宏 · 发表于 2023-3-10 12:31:14

这一篇笔记介绍如何使用 Python 对数据进行更新操作。
对于 es 的更新的操作，不用到 Search() 方法，而是直接使用 es 的连接加上相应的函数来操作，本篇笔记目录如下：

获取连接
update()
update_by_query()
批量更新
UpdateByQuery()

1、获取连接

如果使用的是之前的全局创建连接的方式：
from elasticsearch_dsl import connections
connections.configure(
default={&#34;hosts&#34;: &#34;localhost:9200&#34;},
)我们可以根据别名获取相应的连接：
conn = connections.connections.get_connection(&#34;default&#34;)或者我们直接使用 elasticsearch.Elasticsearch 模块来重新建立一个连接：
from elasticsearch import Elasticsearch

conn = Elasticsearch(hosts=&#34;localhost:9200&#34;)前面介绍过，我们安装 elasticsearch_dsl 依赖的时候，会自动为我们安装上相应的 elasticsearch 模块，我们这里直接使用即可。
然后通过 conn 连接可以直接对数据进行更新，可用的方法有 update()，update_by_query() 以及一个批量的 bulk() 方法。
2、update()

update() 函数一般只用于指定 id 的更新操作，如果我们知道一条数据的 id，我们可以直接使用 update()。
比如对于 exam 这个 index 下 id=18 的数据，我们想要更新它的 name 字段和 address 字段分别为王五和湖南省，我们可以如下操作：
conn.update(
index=&#34;exam&#34;,
id=18,
body={
      &#34;doc&#34;: {
         &#34;name&#34;: &#34;王五2&#34;,
         &#34;address&#34;: &#34;湖南省&#34;,
      }
}
)在上面的操作中，index 为指定的索引，id 参数为我们需要更新的 id，body 内 doc 下的字段即为我们要更新的数据。
3、update_by_query()

update_by_query() 函数不局限于 id 的查询更新，我们可以更新任意符合条件的数据，以下是一个简单的示例：
conn.update_by_query(
index=&#34;exam&#34;,
body={
      &#34;query&#34;: {
         &#34;term&#34;: {&#34;name&#34;:  &#34;张三丰&#34;}
      },
      &#34;script&#34;: {
         &#34;source&#34;: &#34;ctx._source.address = params.address&#34;,
         &#34;params&#34;: {
            &#34;address&#34;: &#34;新地址&#34;,
         }
      }
}
)在这里，index 参数还是指向对应的索引，body 内包含了需要更新查询的条件，这里都在 query 参数内，需要更新的数据在 script 下，通过脚本的形式来操作更新。
这里注意下，我这里用到的是 7.6.0 版本，所以 script 下使用的 source，更低一点版本用的字段可能是 inline，这里使用对应版本的参数即可。
在 script.source 中，内容为 ctx._source.address = params.address，意思是将符合条件数据的 address 字段内容更新为 params 的 address 的数据。
如果想要更改其他字段内容，注意前面 ctx._source 为固定写法，只需要更改后面的字段名即可。
在 script.params 中，我们则可以定义各种对应的字段及其内容。
更新多个字段

如果我们想同时更新多个字段，比如说符合条件的数据将 address 改为新地址，将 age 字段改为 28，我们则需要将多个条件在 script.source 中使用分号 ; 连接起来，示例如下：
conn.update_by_query(
index=&#34;exam&#34;,
body={
      &#34;query&#34;: {
         &#34;term&#34;: {&#34;name&#34;:  &#34;新张三丰2&#34;}
      },
      &#34;script&#34;: {
         &#34;source&#34;: &#34;ctx._source.address = params.address; ctx._source.age = params.age&#34;,
         &#34;params&#34;: {
            &#34;address&#34;: &#34;新地址3&#34;,
            &#34;age&#34;: &#34;28&#34;
         }
      }
}
)虽然这里更新多个字段需要使用分号连接，但是在实际的代码中我们不用这么写死，比如说我们需要更改三个字段，为 [&#34;address&#34;, &#34;name&#34;, &#34;age&#34;]，我们如下操作：
field_list = [&#34;address&#34;, &#34;name&#34;, &#34;age&#34;]
source_list = [f&#34;ctx._source.{key}=params.{key}&#34; for key in field_list]

params = {
&#34;address&#34;: &#34;新地址3&#34;,
&#34;age&#34;: &#34;28&#34;,
&#34;name&#34;: &#34;new name&#34;
}

conn.update_by_query(
index=&#34;exam&#34;,
body={
      &#34;query&#34;: {
         &#34;term&#34;: {&#34;name&#34;:  &#34;新张三丰3&#34;}
      },
      &#34;script&#34;: {
         &#34;source&#34;: &#34;;&#34;.join(source_list),
         &#34;params&#34;: params
      }
}
)4、批量更新

如果我们想批量更新一批数据，这批数据各个字段的值都不一致，自定义的程度很大，使用 update_by_query() 函数已经不现实了，怎么办？
好解决，我们可以使用 helpers.bulk() 批量更新方法。
首先引入这个模块：
from elasticsearch import helpers假设我们系统里现在有 id 为 21，23，24 的几条数据，还是在 exam 这个索引下，我们来构造几条需要更新的数据来操作：
action_1 = {
&#34;_op_type&#34;: &#34;update&#34;,
&#34;_index&#34;: &#34;exam&#34;,
&#34;_id&#34;: 21,
&#34;doc&#34;: {&#34;age&#34;: 19, &#34;name&#34;: &#34;令狐冲&#34;, &#34;address&#34;: &#34;华山派&#34;},
}

action_2 = {
&#34;_op_type&#34;: &#34;update&#34;,
&#34;_index&#34;: &#34;exam&#34;,
&#34;_id&#34;: 23,
&#34;doc&#34;: {&#34;age&#34;: 20, &#34;name&#34;: &#34;杨过&#34;, &#34;address&#34;: &#34;终南山&#34;},
}

action_3 = {
&#34;_op_type&#34;: &#34;update&#34;,
&#34;_index&#34;: &#34;exam&#34;,
&#34;_id&#34;: 24,
&#34;doc&#34;: {&#34;age&#34;: 21, &#34;name&#34;: &#34;张无忌&#34;, &#34;address&#34;: &#34;武当&#34;},
}
action_list = [action_1, action_2, action_3]
helpers.bulk(conn, actions=action_list)对于每一条需要更新的数据，有这几个参数：
_op_type：如果是更新操作，其值则是 update
_index：表示需要更新的数据所在的索引，这里是 exam
_id：表示这条需要更新的数据的 id
doc：是一个 dict 数据，其下包含了需要更新的字段及其对应的值
至此，一条需要更新的数据的结构就构造完毕了。
然后对于 helpers.bulk() 函数，接收的第一个参数为 es 连接，actions 参数是一个列表，其内容就是我们前面构造的数据的集合。
然后执行这个操作就可以发现 es 中对应的值已经更改了。
5、UpdateByQuery()

UpdateByQuery() 函数来源于 elasticsearch_dsl 模块，它的使用和 Search() 方法差不多，都是通过 using 和 index 参数来获取 es 连接和索引：
from elasticsearch_dsl import connections
from elasticsearch_dsl import UpdateByQuery
from elasticsearch_dsl import Q as ES_Q

connections.configure(
default={&#34;hosts&#34;: &#34;localhost:9200&#34;},
)

ubq = UpdateByQuery(using=&#34;default&#34;, index=&#34;exam&#34;)使用这个方法更新数据的具体语法和 update_by_query 差不多，都是通过 script 的方式来操作，以下是一个简单示例：
ubq = UpdateByQuery(using=&#34;default&#34;, index=&#34;exam&#34;)

q1 = ES_Q(&#34;term&#34;, name=&#34;郭靖&#34;)

ubq = ubq.query(q1)

ubq = ubq.script(
source=&#34;ctx._source.address=params.address&#34;,
params={
      &#34;address&#34;: &#34;襄阳城&#34;
}
)

ubq.execute()与 Search() 函数一样，都需要通过 execute() 函数来向 es 提交数据。

本文文章首发于本人微信公众号，微信公众号搜索【Django笔记】关注可获得更多相关文章
原文链接：Python连接es笔记三之es更新操作

		自动登录	找回密码
密码			立即注册