Un moyen plus sûr d'exposer un tampon mémoire alloué en C en utilisant numpy/ctypes ?

J'écris des liens Python pour une bibliothèque C qui utilise des tampons de mémoire partagée pour stocker son état interne. L'allocation et la libération de ces tampons sont effectuées en dehors de Python par la bibliothèque elle-même, mais je peux indirectement contrôler le moment où cela se produit en appelant les fonctions constructrices/destructrices enveloppées depuis Python. J'aimerais exposer certains de ces tampons à Python afin de pouvoir les lire et, dans certains cas, leur transmettre des valeurs. Les performances et l'utilisation de la mémoire étant des préoccupations importantes, j'aimerais éviter de copier des données dans la mesure du possible.

Mon approche actuelle consiste à créer un tableau numpy qui fournit une vue directe sur un pointeur ctypes :

import numpy as np
import ctypes as C

libc = C.CDLL('libc.so.6')

class MyWrapper(object):

    def __init__(self, n=10):
        # buffer allocated by external library
        addr = libc.malloc(C.sizeof(C.c_int) * n)
        self._cbuf = (C.c_int * n).from_address(addr)

    def __del__(self):
        # buffer freed by external library
        self._cbuf = None

    def buffer(self):
        return np.ctypeslib.as_array(self._cbuf)

En plus d'éviter les copies, cela signifie également que je peux utiliser la syntaxe d'indexation et d'affectation de numpy et la passer directement à d'autres fonctions numpy :

wrap = MyWrapper()
buf = wrap.buffer       # buf is now a writeable view of a C-allocated buffer

buf[:] = np.arange(10)  # this is pretty cool!
buf[::2] += 10

# [10  1 12  3 14  5 16  7 18  9]

Cependant, elle est aussi intrinsèquement dangereuse :

del wrap                # free the pointer

print(buf)              # this is bad!
# [1852404336 1969367156  538978662  538976288  538976288  538976288
#  1752440867 1763734377 1633820787       8548]

# buf[0] = 99           # uncomment this line if you <3 segfaults

Pour rendre cela plus sûr, je dois pouvoir vérifier si le pointeur C sous-jacent a été libéré avant d'essayer de lire/écrire le contenu du tableau. J'ai quelques idées sur la façon de le faire :

  • Une façon de faire serait de générer une sous-classe de np.ndarray qui contient une référence à la _cbuf l'attribut de MyWrapper vérifie s'il est None avant d'effectuer toute lecture/écriture dans sa mémoire sous-jacente, et lève une exception si c'est le cas.
  • Je pourrais facilement générer plusieurs vues sur le même tampon, par exemple en .view casting ou slicing, donc chacun d'entre eux devra hériter de la référence à _cbuf et la méthode qui effectue le contrôle. Je pense que l'on pourrait y parvenir en surchargeant la méthode __array_finalize__ mais je ne sais pas exactement comment.
  • La méthode de "pointer-checking" devrait également être appelée avant toute opération de lecture et/ou d'écriture du contenu du tableau. Je ne connais pas assez les internes de numpy pour avoir une liste exhaustive des méthodes à surcharger.

Comment pourrais-je implémenter une sous-classe de np.ndarray qui effectue cette vérification ? Quelqu'un peut-il suggérer une meilleure approche ?

Mise à jour : Cette classe fait la plupart de ce que je veux :

class SafeBufferView(np.ndarray):

    def __new__(cls, get_buffer, shape=None, dtype=None):
        obj = np.ctypeslib.as_array(get_buffer(), shape).view(cls)
        if dtype is not None:
            obj.dtype = dtype
        obj._get_buffer = get_buffer
        return obj

    def __array_finalize__(self, obj):
        if obj is None: return
        self._get_buffer = getattr(obj, "_get_buffer", None)

    def __array_prepare__(self, out_arr, context=None):
        if not self._get_buffer(): raise Exception("Dangling pointer!")
        return out_arr

    # this seems very heavy-handed - surely there must be a better way?
    def __getattribute__(self, name):
        if name not in ["__new__", "__array_finalize__", "__array_prepare__",
                        "__getattribute__", "_get_buffer"]:
            if not self._get_buffer(): raise Exception("Dangling pointer!")
        return super(np.ndarray, self).__getattribute__(name)

Par exemple :

wrap = MyWrapper()
sb = SafeBufferView(lambda: wrap._cbuf)
sb[:] = np.arange(10)

# SafeBufferView([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)

# SafeBufferView([0, 2, 4, 6, 8], dtype=int32)

sbv = sb.view(np.double)
# SafeBufferView([  2.12199579e-314,   6.36598737e-314,   1.06099790e-313,
#          1.48539705e-313,   1.90979621e-313])

# we have to call the destructor method of `wrap` explicitly - `del wrap` won't
# do anything because `sb` and `sbv` both hold references to `wrap`

print(sb)                # Exception: Dangling pointer!
print(sb + 1)            # Exception: Dangling pointer!
print(sbv)               # Exception: Dangling pointer!
print(np.sum(sb))        # Exception: Dangling pointer!
print(sb.dot(sb))        # Exception: Dangling pointer!

print(np.dot(sb, sb))    # oops...
# -70104698

print(np.extract(np.ones(10), sb))
# array([251019024,     32522, 498870232,     32522,         4,         5,
#               6,         7,        48,         0], dtype=int32)

# np.copyto(sb, np.ones(10, np.int32))    # don't try this at home, kids!

Je suis sûr qu'il y a d'autres cas limites que j'ai manqués.

Mise à jour 2 : Je me suis amusé avec weakref.proxy comme le suggère @ivan_pozdeev . C'est une bonne idée, mais malheureusement je ne vois pas comment cela pourrait fonctionner avec les tableaux numpy. Je pourrais essayer de créer une référence faible vers le tableau numpy retourné par .buffer :

wrap = MyWrapper()
wr = weakref.proxy(wrap.buffer)
# ReferenceError: weakly-referenced object no longer exists
# <weakproxy at 0x7f6fe715efc8 to NoneType at 0x91a870>

Je pense que le problème ici est que le np.ndarray retournée par wrap.buffer sort immédiatement du champ d'application. Une solution de contournement serait que la classe instancie le tableau lors de l'initialisation, qu'elle conserve une référence forte à ce tableau et que la fonction .buffer() getter retourne un weakref.proxy au tableau :

class MyWrapper2(object):

    def __init__(self, n=10):
        # buffer allocated by external library
        addr = libc.malloc(C.sizeof(C.c_int) * n)
        self._cbuf = (C.c_int * n).from_address(addr)
        self._buffer = np.ctypeslib.as_array(self._cbuf)

    def __del__(self):
        # buffer freed by external library
        self._cbuf = None
        self._buffer = None

    def buffer(self):
        return weakref.proxy(self._buffer)

Cependant, cela s'arrête si je crée une deuxième vue sur le même tableau alors que le tampon est toujours alloué :

wrap2 = MyWrapper2()
buf = wrap2.buffer
buf[:] = np.arange(10)

buf2 = buf[:]   # create a second view onto the contents of buf

# <weakproxy at 0x7fec3e709b50 to numpy.ndarray at 0x210ac80>
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)


print(buf2[:])  # this is bad
# [1291716568    32748 1291716568    32748        0        0        0
#         0       48        0] 

print(buf[:])   # WTF?!
# [34525664        0        0        0        0        0        0        0
#         0        0]  

Esto es sérieusement cassé - après avoir appelé wrap2.__del__() non seulement je peux lire et écrire sur buf2 qui était une vue d'un tableau numpy sur wrap2._cbuf mais je peux même lire et écrire à buf ce qui ne devrait pas être possible étant donné que wrap2.__del__() fixe wrap2._buffer a None .


Vous devez garder une référence à votre Wrapper tant qu'un tableau numpy existe. La manière la plus simple d'y parvenir est de sauvegarder cette référence dans un attribut du ctype-buffer :

class MyWrapper(object):
    def __init__(self, n=10):
        # buffer allocated by external library
        self.size = n
        self.addr = libc.malloc(C.sizeof(C.c_int) * n)

    def __del__(self):
        # buffer freed by external library

    def buffer(self):
        buf = (C.c_int * self.size).from_address(self.addr)
        buf._wrapper = self
        return np.ctypeslib.as_array(buf)

De cette façon, votre wrapper est automatiquement libéré lorsque la dernière référence, par exemple le dernier tableau numpy, est collectée.


Il s'agit d'une bibliothèque propriétaire écrite par un tiers et distribuée sous forme de binaire. Je pourrais appeler les mêmes fonctions de bibliothèque en C plutôt qu'en Python, mais cela ne m'aiderait pas beaucoup puisque je n'ai toujours pas accès au code qui alloue et libère réellement les tampons. Je ne peux pas, par exemple, allouer les tampons moi-même et les transmettre à la bibliothèque en tant que pointeurs.

Vous pouvez toutefois envelopper le tampon dans un type d'extension Python. De cette façon, vous pouvez exposer uniquement l'interface que vous souhaitez rendre disponible et laisser le type d'extension gérer automatiquement la libération du tampon. De cette façon, il est impossible pour l'API Python d'effectuer une lecture/écriture en mémoire libre.


#include <python3.3/Python.h>

// Hardcoded values
// N.B. Most of these are only needed for defining the view in the Python
// buffer protocol
static long external_buffer_size = 32;          // Size of buffer in bytes
static long external_buffer_shape[] = { 32 };   // Number of items for each dimension
static long external_buffer_strides[] = { 1 };  // Size of item for each dimension

// Code to simulate the third-party library

// Allocate a new buffer
static void* external_buffer_allocate()
    // Allocate the memory
    void* ptr = malloc(external_buffer_size);

    // Debug
    printf("external_buffer_allocate() = 0x%lx\n", (long) ptr);

    // Fill buffer with a recognizable pattern
    int i;
    for (i = 0; i < external_buffer_size; ++i)
        *((char*) ptr + i) = i;

    // Done
    return ptr;

// Free an existing buffer
static void external_buffer_free(void* ptr)
    // Debug
    printf("external_buffer_free(0x%lx)\n", (long) ptr);

    // Release the memory

// Define a new Python instance object for the external buffer
// See: https://docs.python.org/3/extending/newtypes.html

typedef struct
    // Python macro to include standard members, like reference count

    // Base address of allocated memory
    void* ptr;
} BufferObject;

// Define the instance methods for the new object

// Called when there are no more references to the object
static void BufferObject_dealloc(BufferObject* self)

// Called when we want a new view of the buffer, using the buffer protocol
// See: https://docs.python.org/3/c-api/buffer.html
static int BufferObject_getbuffer(BufferObject *self, Py_buffer *view, int flags)
    // Set the view info
    view->obj = (PyObject*) self;
    view->buf = self->ptr;                      // Base pointer
    view->len = external_buffer_size;           // Length
    view->readonly = 0;
    view->itemsize = 1;
    view->format = "B";                         // unsigned byte
    view->ndim = 1;
    view->shape = external_buffer_shape;
    view->strides = external_buffer_strides;
    view->suboffsets = NULL;
    view->internal = NULL;

    // We need to increase the reference count of our buffer object here, but
    // Python will automatically decrease it when the view goes out of scope

    // Done
    return 0;

// Define the struct required to implement the buffer protocol

static PyBufferProcs BufferObject_as_buffer =
    // Create new view
    (getbufferproc) BufferObject_getbuffer,

    // Release an existing view
    (releasebufferproc) 0,

// Define a new Python type object for the external buffer

static PyTypeObject BufferType =
    PyVarObject_HEAD_INIT(NULL, 0)
    "external buffer",                  /* tp_name */
    sizeof(BufferObject),               /* tp_basicsize */
    0,                                  /* tp_itemsize */
    (destructor) BufferObject_dealloc,  /* tp_dealloc */
    0,                                  /* tp_print */
    0,                                  /* tp_getattr */
    0,                                  /* tp_setattr */
    0,                                  /* tp_reserved */
    0,                                  /* tp_repr */
    0,                                  /* tp_as_number */
    0,                                  /* tp_as_sequence */
    0,                                  /* tp_as_mapping */
    0,                                  /* tp_hash  */
    0,                                  /* tp_call */
    0,                                  /* tp_str */
    0,                                  /* tp_getattro */
    0,                                  /* tp_setattro */
    &BufferObject_as_buffer,            /* tp_as_buffer */
    Py_TPFLAGS_DEFAULT,                 /* tp_flags */
    "External buffer",                  /* tp_doc */
    0,                                  /* tp_traverse */
    0,                                  /* tp_clear */
    0,                                  /* tp_richcompare */
    0,                                  /* tp_weaklistoffset */
    0,                                  /* tp_iter */
    0,                                  /* tp_iternext */
    0,                                  /* tp_methods */
    0,                                  /* tp_members */
    0,                                  /* tp_getset */
    0,                                  /* tp_base */
    0,                                  /* tp_dict */
    0,                                  /* tp_descr_get */
    0,                                  /* tp_descr_set */
    0,                                  /* tp_dictoffset */
    (initproc) 0,                       /* tp_init */
    0,                                  /* tp_alloc */
    0,                                  /* tp_new */

// Define a Python function to put in the module which creates a new buffer

static PyObject* mybuffer_create(PyObject *self, PyObject *args)
    BufferObject* buf = (BufferObject*)(&BufferType)->tp_alloc(&BufferType, 0);
    buf->ptr = external_buffer_allocate();
    return (PyObject*) buf;

// Define the set of all methods which will be exposed in the module

static PyMethodDef mybufferMethods[] =
    {"create", mybuffer_create, METH_VARARGS, "Create a buffer"},
    {NULL, NULL, 0, NULL}        /* Sentinel */

// Define the module

static PyModuleDef mybuffermodule = {
    "Example module that creates an extension type.",

// Define the module's entry point

PyMODINIT_FUNC PyInit_mybuffer(void)
    PyObject* m;

    if (PyType_Ready(&BufferType) < 0)
        return NULL;

    m = PyModule_Create(&mybuffermodule);
    if (m == NULL)
        return NULL;

    return m;


#!/usr/bin/env python3

import numpy as np
import mybuffer

def test():

    print('Create buffer')
    b = mybuffer.create()

    print('Print buffer')

    print('Create memoryview')
    m = memoryview(b)

    print('Print memoryview shape')

    print('Print memoryview format')

    print('Create numpy array')
    a = np.asarray(b)

    print('Print numpy array')

    print('Change every other byte in numpy')
    a[::2] += 10

    print('Print numpy array')

    print('Change first byte in memory view')
    m[0] = 42

    print('Print numpy array')

    print('Delete buffer')
    del b

    print('Delete memoryview')
    del m

    print('Delete numpy array - this is the last ref, so should free memory')
    del a

    print('Memory should be free before this line')

if __name__ == '__main__':


$ gcc -fPIC -shared -o mybuffer.so mybuffer.c -lpython3.3m
$ ./test.py
Create buffer
external_buffer_allocate() = 0x290fae0
Print buffer
<external buffer object at 0x7f7231a2cc60>
Create memoryview
Print memoryview shape
Print memoryview format
Create numpy array
Print numpy array
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31], dtype=uint8)
Change every other byte in numpy
Print numpy array
array([10,  1, 12,  3, 14,  5, 16,  7, 18,  9, 20, 11, 22, 13, 24, 15, 26,
       17, 28, 19, 30, 21, 32, 23, 34, 25, 36, 27, 38, 29, 40, 31], dtype=uint8)
Change first byte in memory view
Print numpy array
array([42,  1, 12,  3, 14,  5, 16,  7, 18,  9, 20, 11, 22, 13, 24, 15, 26,
       17, 28, 19, 30, 21, 32, 23, 34, 25, 36, 27, 38, 29, 40, 31], dtype=uint8)
Delete buffer
Delete memoryview
Delete numpy array - this is the last ref, so should free memory
Memory should be free before this line


J'ai aimé l'approche de @Vikas, mais lorsque je l'ai essayée, je n'ai obtenu qu'un tableau d'objets Numpy d'une seule FreeOnDel objet. La méthode suivante est beaucoup plus simple et fonctionne :

class FreeOnDel(object):
    def __init__(self, data, shape, dtype, readonly=False):
        self.__array_interface__ = {"version": 3,
                                    "typestr": numpy.dtype(dtype).str,
                                    "data": (data, readonly),
                                    "shape": shape}
    def __del__(self):
        data = self.__array_interface__["data"][0]      # integer ptr
        print("do what you want with the data at {}".format(data))

view = numpy.array(FreeOnDel(ptr, shape, dtype), copy=False)

ptr est un pointeur vers les données sous forme d'un nombre entier (par exemple ctypesptr.addressof(...) ).

Ce site __array_interface__ est suffisant pour indiquer à Numpy comment convertir une région de la mémoire en un tableau, puis l'attribut FreeOnDel devient l'objet base . Lorsque le tableau est supprimé, la suppression est propagée à l'ensemble du tableau. FreeOnDel où vous pouvez appeler libc.free .

Je pourrais même appeler ça FreeOnDel classe " BufferOwner ", car c'est son rôle : suivre la propriété.


weakref est un mécanisme intégré pour la fonctionnalité que vous proposez. Plus précisément, weakref.proxy est un objet ayant la même interface que celle de l'objet référencé. Après l'élimination de l'objet référencé, toute opération sur le proxy soulève weakref.ReferenceError . Vous n'avez même pas besoin numpy :

In [2]: buffer=(c.c_int*100)()   #acts as an example for an externally allocated buffer
In [3]: voidp=c.addressof(buffer)

In [10]: a=(c.c_int*100).from_address(voidp) # python object accessing the buffer.
                 # Here it's created from raw address value. It's better to use function
                 # prototypes instead for some type safety.
In [14]: ra=weakref.proxy(a)

In [15]: a[1]=1
In [16]: ra[1]
Out[16]: 1

In [17]: del a
In [18]: ra[1]
ReferenceError: weakly-referenced object no longer exists

In [20]: buffer[1]
Out[20]: 1

Comme vous pouvez le voir, dans tous les cas, vous avez besoin d'un objet Python normal sur le tampon C. Si une bibliothèque externe possède la mémoire, l'objet doit être supprimé avant que le tampon ne soit libéré au niveau du C. Si vous possédez vous-même la mémoire, il vous suffit de créer un objet ctypes de la manière habituelle, puis il sera libéré lorsqu'il sera supprimé.

Ainsi, si votre bibliothèque externe possède la mémoire et peut la libérer à tout moment (votre spécification est vague à ce sujet), elle doit vous informer d'une manière ou d'une autre qu'elle est sur le point de le faire - sinon, vous n'avez aucun moyen de le savoir pour prendre les mesures nécessaires.


Vous avez juste besoin d'une enveloppe avec des __del__ avant de le transmettre à la fonction numpy.ctypeslib.as_array méthode.

class FreeOnDel(object):
    def __init__(self, ctypes_ptr):
        # This is not needed if you are dealing with ctypes.POINTER() objects
        # Start of hack for ctypes ARRAY type;
        if not hasattr(ctypes_ptr, 'contents'):
            # For static ctypes arrays, the length and type are stored
            # in the type() rather than object. numpy queries these 
            # properties to find out the shape and type, hence needs to be 
            # copied. I wish type() properties could be automated by 
            # __getattr__ too
            type(self)._length_ = type(ctypes_ptr)._length_
            type(self)._type_ = type(ctypes_ptr)._type_
        # End of hack for ctypes ARRAY type;

        # cannot call self._ctypes_ptr = ctypes_ptr because of recursion
        super(FreeOnDel, self).__setattr__('_ctypes_ptr', ctypes_ptr)

    # numpy.ctypeslib.as_array function sets the __array_interface__
    # on type(ctypes_ptr) which is not called by __getattr__ wrapper
    # Hence this additional wrapper.
    def __array_interface__(self):
        return self._ctypes_ptr.__array_interface__

    def __array_interface__(self, value):
        self._ctypes_ptr.__array_interface__ = value

    # This is the onlly additional function we need rest all is overhead
    def __del__(self):
        addr = ctypes.addressof(self._ctypes_ptr)
        print("freeing address %x" % addr)
        # Need to be called on all object members
        # object.__del__(self) does not work
        del self._ctypes_ptr

    def __getattr__(self, attr):
        return getattr(self._ctypes_ptr, attr)

    def __setattr__(self, attr, val):
        setattr(self._ctypes_ptr, attr, val)

Pour tester

In [32]: import ctypes as C

In [33]: n = 10

In [34]: libc = C.CDLL("libc.so.6")

In [35]: addr = libc.malloc(C.sizeof(C.c_int) * n)

In [36]: cbuf = (C.c_int * n).from_address(addr)

In [37]: wrap = FreeOnDel(cbuf)

In [38]: sb = np.ctypeslib.as_array(wrap, (10,))

In [39]: sb[:] = np.arange(10)

In [40]: print(repr(sb))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)

In [41]: print(repr(sb[::2]))
array([0, 2, 4, 6, 8], dtype=int32)

In [42]: sbv = sb.view(np.double)

In [43]: print(repr(sbv))
array([  2.12199579e-314,   6.36598737e-314,   1.06099790e-313,
         1.48539705e-313,   1.90979621e-313])

In [45]: buf2 = sb[:8]

In [46]: sb[::2] += 10

In [47]: del cbuf   # Memory not freed because this does not have __del__

In [48]: del wrap   # Memory not freed because sb, sbv, buf2 have references

In [49]: del sb     # Memory not freed because sbv, buf have references

In [50]: del buf2   # Memory not freed because sbv has reference

In [51]: del sbv    # Memory freed because no more references
freeing address 2bc6bc0

En fait, une solution plus simple est d'écraser __del__ fonction

In [7]: olddel = getattr(cbuf, '__del__', lambda: 0)

In [8]: cbuf.__del__ = lambda self : libc.free(C.addressof(self)), olddel

In [10]: import numpy as np

In [12]: sb = np.ctypeslib.as_array(cbuf, (10,))

In [13]: sb[:] = np.arange(10)

In [14]: print(repr(sb))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)

In [15]: print(repr(sb))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32)

In [16]: print(repr(sb[::2]))
array([0, 2, 4, 6, 8], dtype=int32)

In [17]: sbv = sb.view(np.double)

In [18]: print(repr(sbv))
array([  2.12199579e-314,   6.36598737e-314,   1.06099790e-313,
         1.48539705e-313,   1.90979621e-313])

In [19]: buf2 = sb[:8]

In [20]: sb[::2] += 10

In [22]: del cbuf   # Memory not freed

In [23]: del sb     # Memory not freed because sbv, buf have references

In [24]: del buf2   # Memory not freed because sbv has reference

In [25]: del sbv    # Memory freed because no more references


